TechFlow đưa tin, ngày 1 tháng 6, Tether AI đã công bố phát hành mã nguồn mở TurboQuant và tích hợp công nghệ này vào SDK QVAC phiên bản 0.12.0. Kỹ thuật này dựa trên thuật toán nén bộ nhớ do Google Research phát triển, cho phép nén bộ đệm KV (Key-Value) trong quá trình vận hành mô hình ngôn ngữ lớn (LLM) lên đến khoảng 5 lần, từ đó giảm đáng kể việc sử dụng bộ nhớ trên thiết bị cục bộ và thiết bị biên mà vẫn duy trì chất lượng đầu ra ở mức tối đa.
Theo Tether, TurboQuant hỗ trợ xử lý các cuộc hội thoại dài hơn, tài liệu lớn hơn và khối lượng công việc phức tạp hơn trên máy tính xách tay, điện thoại thông minh, GPU tiêu dùng, thiết bị biên cũng như mạng suy luận phi tập trung; đồng thời, công nghệ này đã được cung cấp cho các nhà phát triển thông qua nền tảng Fabric.




