TechFlowの報道によると、6月1日、Tether AIはオープンソースのTurboQuantを発表し、これをQVAC SDK 0.12.0に統合しました。この技術はGoogle Researchが開発したメモリ圧縮アルゴリズムに基づいており、大規模言語モデル(LLM)実行時のKVキャッシュを最大約5倍まで圧縮可能で、出力品質をできる限り維持しつつ、ローカルおよびエッジデバイスにおけるメモリ使用量を削減します。
Tetherによれば、TurboQuantはノートパソコン、スマートフォン、コンシューマー向けGPU、エッジデバイス、および分散型推論ネットワークにおいて、より長い会話、より大規模なドキュメント、およびより複雑なワークロードの処理を可能にします。また、すでにFabricを通じて開発者に公開されています。
お気に入りに追加
SNSで共有




