TechFlow annonce que, le 17 mars, selon Paolo Ardoino, PDG de Tether, l’équipe Tether AI a publié une nouvelle version de QVAC Fabric, intégrant le cadre BitNet LoRA multiplateforme, permettant l’entraînement et l’inférence de modèles linguistiques à grande échelle (LLM) d’un milliard de paramètres sur des GPU grand public et des smartphones.
Cette nouvelle version de QVAC Fabric LLM réalise pour la première fois l’exécution multiplateforme du réglage fin (fine-tuning) et de l’inférence BitNet LoRA sur les GPU AMD, Intel, Apple Metal ainsi que sur les GPU mobiles. Sur les appareils haut de gamme, la vitesse d’inférence GPU est accrue de 2 à 11 fois par rapport à celle du CPU, tandis que l’occupation mémoire est réduite jusqu’à 90 % par rapport aux modèles en précision complète. L’équipe Tether a déjà effectué avec succès le réglage fin de modèles allant jusqu’à 3,8 milliards de paramètres sur des smartphones haut de gamme tels que le Pixel 9, le Galaxy S25 et l’iPhone 16, et a même réalisé le réglage fin de modèles atteignant 13 milliards de paramètres sur l’iPhone 16. Le code correspondant a été publié en open source sur GitHub.




