TechFlowより、6月27日、CoinbaseのCEOであるブライアン・アームストロング氏が、同社におけるAI関連コスト最適化に関する最新の進捗を投稿しました。
アームストロング氏は、AIの利用量およびトークン消費量が継続的に増加する中で、コストをコントロールする鍵となるのは、従業員のAI利用を制限したり、頻繁に予算の警告を送信したりすることではなく、デフォルトのモデル選択、タスクのルーティングメカニズム、およびキャッシュ戦略の最適化にあると述べています。
同氏によると、Coinbaseでは現在、社内LLMゲートウェイを通じて、GLM 5.2やKimi 2.7などのオープンウェイトモデルをデフォルトオプションとして試験導入しており、エンジニアは引き続き、具体的なタスク要件に応じて他のモデルを選択可能です。データによれば、同社従業員の91%がAI利用上限に一度も達しておらず、そのためCoinbaseは割り当て額を厳格に制限するのではなく、より低コストなモデルソリューションを採用して全体の効率を向上させています。
モデルのルーティングに関しては、Coinbaseがプロンプトを事前処理し、キャッシュヒット率および各モデルの価格設定を踏まえて、タスクを自動的に最も適したモデルに割り当てる仕組みを構築しています。アームストロング氏は、プランニングや推論など複雑なタスクには最先端モデルが必要な場合もある一方で、実行系タスクについては高コストなモデルを必ずしも呼び出す必要はないとの見解を示しています。今後は、モデル選択プロセスを人間による判断に依存するのではなく、AIが自動的に行うことが望ましいと指摘しています。
また、アームストロング氏は、キャッシュヒット率がAIコストに大きな影響を与える要因の一つであると指摘しています。Coinbaseでは、リクエストフローにキャッシュ認識機能を組み込み、過去の結果の再利用率を高めています。一例として、LibreChatにおいてキャッシュ最適化を実施したところ、キャッシュヒット率は5%から60%へと大幅に向上しました。
さらに同氏は、エンジニアに対し、コンテキストを可能な限り簡潔に保つよう求めていると述べており、その具体策として、タスク切り替え時に新しい会話セッションを開始すること、ファイルのコンテキスト範囲を狭めること、未使用ツールを無効化することなどを挙げ、不要なトークン消費を削減しています。
これらの施策により、CoinbaseはAI関連支出を約50%削減することに成功した一方で、トークン使用量は依然として増加傾向にあると報告されています。




