TechFlow 보도에 따르면, 6월 27일 코인베이스(Coinbase) CEO 브라이언 암스트롱(Brian Armstrong)은 회사의 AI 비용 최적화 관련 최신 진전을 소개하는 글을 게재했다.
암스트롱은 AI 사용량과 토큰 소비가 지속적으로 증가함에 따라 비용을 통제하는 핵심 전략이 직원들의 AI 사용을 제한하거나 예산 경고를 자주 발송하는 것이 아니라, 기본 모델 선택, 작업 라우팅 메커니즘 및 캐시 전략을 최적화하는 데 있음을 강조했다.
그는 코인베이스가 내부 LLM 게이트웨이를 통해 GLM 5.2, 김리(Kimi) 2.7 등 오픈 웨이트 모델을 기본 옵션으로 도입하고 있으며, 엔지니어들은 여전히 특정 작업 요구 사항에 따라 다른 모델을 선택할 수 있다고 밝혔다. 데이터에 따르면, 코인베이스 직원의 91%가 AI 사용 한도에 도달한 적이 없으므로, 코인베이스는 할당량을 축소하기보다는 더 낮은 비용의 모델 솔루션을 통해 전반적인 효율성을 제고하고 있다.
모델 라우팅 측면에서는 프롬프트를 사전 처리하고, 캐시 적중률과 각 모델의 가격을 종합적으로 고려해 작업을 자동으로 가장 적합한 모델에 할당한다. 암스트롱은 계획 및 추론 등 복잡한 작업에는 선도적인 모델이 필요할 수 있으나, 실행 중심의 작업은 비용이 더 높은 모델을 호출할 필요가 없을 수 있다고 설명했다. 향후에는 모델 선택 과정을 인공지능이 자동으로 수행하도록 하여, 인위적인 수작업 결정에 의존하지 않도록 해야 한다고 덧붙였다.
또한 그는 캐시 적중률이 AI 비용에 중요한 영향을 미치는 요소 중 하나라고 지적했다. 코인베이스는 요청 프로세스에 캐시 인식 기능을 통합하여 이전 결과의 재사용률을 높이고 있다. 예를 들어, LibreChat의 경우 캐시 최적화 방안 적용 후 캐시 적중률이 5%에서 60%로 향상되었다.
암스트롱은 또 엔지니어들이 불필요한 토큰 소비를 줄이기 위해 컨텍스트를 최대한 간결하게 유지하도록 권장하고 있으며, 이는 작업 전환 시 새 세션을 시작하거나 파일 컨텍스트 범위를 좁히고 미사용 도구를 비활성화하는 것을 포함한다고 밝혔다.
그는 이러한 조치들을 통해 코인베이스가 AI 관련 지출을 거의 50% 감축하면서도 토큰 사용량은 계속해서 증가하고 있다고 전했다.




