TechFlow annonce que le 1er juin, Tether AI a publié TurboQuant en open source et l’a intégré au SDK QVAC version 0.12.0. Cette technologie, fondée sur l’algorithme de compression mémoire développé par Google Research, permet de compresser jusqu’à cinq fois le cache KV utilisé lors de l’exécution des grands modèles linguistiques, réduisant ainsi la consommation mémoire sur les appareils locaux et périphériques, tout en préservant au mieux la qualité des sorties.
Tether indique que TurboQuant permet aux ordinateurs portables, aux smartphones, aux GPU grand public, aux appareils périphériques et aux réseaux décentralisés d’inférence de traiter des conversations plus longues, des documents plus volumineux et des charges de travail plus complexes ; elle est désormais accessible aux développeurs via Fabric.




