深潮 TechFlow 消息,6 月 01 日,Tether AI 宣佈發佈開源 TurboQuant,並將其納入 QVAC SDK 0.12.0。該技術基於 Google Research 的內存壓縮算法,可將大語言模型運行中的 KV 緩存壓縮最高約 5 倍,在儘量保持輸出質量的同時,降低本地與邊緣設備的內存佔用。
Tether 表示,TurboQuant 可支持筆記本、手機、消費級 GPU、邊緣設備及去中心化推理網絡處理更長對話、更大文檔和更復雜工作負載,並已通過 Fabric 向開發者開放。
添加收藏
分享社交媒體




