TechFlow 보도에 따르면, 6월 1일 Tether AI는 오픈소스 TurboQuant을 공개하고 이를 QVAC SDK 0.12.0에 통합했다. 이 기술은 Google Research의 메모리 압축 알고리즘을 기반으로 하며, 대규모 언어 모델(LLM) 실행 중 KV 캐시를 최대 약 5배까지 압축할 수 있다. 이 과정에서 출력 품질을 최대한 유지하면서 로컬 및 엣지 기기의 메모리 사용량을 줄인다.
Tether는 TurboQuant가 노트북, 스마트폰, 소비자용 GPU, 엣지 기기 및 탈중앙화 추론 네트워크에서 더 긴 대화, 더 큰 문서, 더 복잡한 워크로드를 처리할 수 있도록 지원한다고 밝혔으며, 이미 Fabric을 통해 개발자들에게 공개했다.




