TechFlow đưa tin, ngày 27 tháng 6, CEO Coinbase Brian Armstrong đăng bài chia sẻ về những tiến triển mới nhất của công ty trong việc tối ưu hóa chi phí AI.
Armstrong cho biết, khi mức độ sử dụng AI và lượng token tiêu thụ tiếp tục gia tăng, chìa khóa để kiểm soát chi phí không nằm ở việc hạn chế nhân viên sử dụng hoặc thường xuyên gửi cảnh báo về ngân sách, mà ở việc tối ưu hóa lựa chọn mô hình mặc định, cơ chế định tuyến tác vụ cũng như chiến lược lưu bộ nhớ đệm (cache).
Ông tiết lộ rằng Coinbase đang thử nghiệm thông qua cổng LLM nội bộ nhằm thiết lập các mô hình có trọng số mở như GLM 5.2 và Kimi 2.7 làm lựa chọn mặc định, đồng thời vẫn cho phép kỹ sư lựa chọn các mô hình khác tùy theo yêu cầu cụ thể của từng tác vụ. Dữ liệu cho thấy 91% nhân viên công ty chưa bao giờ đạt tới giới hạn sử dụng AI, do đó thay vì siết chặt hạn mức phân bổ, Coinbase chọn nâng cao hiệu quả tổng thể thông qua các giải pháp mô hình có chi phí thấp hơn.
Về định tuyến mô hình, Coinbase thực hiện xử lý trước lời nhắc (prompt), sau đó tự động phân bổ tác vụ tới mô hình phù hợp nhất dựa trên tỷ lệ trúng bộ nhớ đệm (cache hit rate) và mức giá khác nhau giữa các mô hình. Armstrong nhận định rằng các tác vụ phức tạp như lập kế hoạch hay suy luận có thể đòi hỏi các mô hình tiên tiến nhất, nhưng các tác vụ thực thi không nhất thiết phải sử dụng những mô hình tốn kém hơn. Trong tương lai, quá trình lựa chọn mô hình nên được thực hiện chủ yếu bởi AI một cách tự động, thay vì phụ thuộc vào quyết định thủ công của con người.
Ngoài ra, ông chỉ ra rằng tỷ lệ trúng bộ nhớ đệm là một trong những yếu tố quan trọng ảnh hưởng đến chi phí AI. Hiện Coinbase đã tích hợp cơ chế nhận thức bộ nhớ đệm (cache-aware) vào quy trình xử lý yêu cầu nhằm nâng cao tỷ lệ tái sử dụng kết quả lịch sử. Chẳng hạn với LibreChat, sau khi tối ưu hóa chiến lược bộ nhớ đệm, tỷ lệ trúng bộ nhớ đệm đã tăng từ 5% lên 60%.
Armstrong cũng nêu rõ công ty yêu cầu kỹ sư cố gắng giữ ngữ cảnh (context) càng ngắn gọn càng tốt, bao gồm khởi tạo hội thoại mới khi chuyển sang tác vụ khác, thu nhỏ phạm vi ngữ cảnh tài liệu và tắt các công cụ không sử dụng — nhằm giảm thiểu lượng token tiêu thụ không cần thiết.
Theo ông, nhờ các biện pháp nêu trên, Coinbase đã thành công trong việc cắt giảm chi phí AI gần 50%, trong khi lượng token tiêu thụ vẫn tiếp tục tăng trưởng.




