
Alpha Arena, AI 거래의 결함 드러내: 서양 모델 일주일 만에 자본 80% 손실
글: Juan Galt
번역: AididiaoJP, Foresight News
AI가 암호화폐 거래를 할 수 있을까? 뉴욕 출신의 컴퓨터 엔지니어이자 금융 종사자인 제이 장(Jay Azhang)은 Alpha Arena를 통해 이 질문을 실험하고 있다. 이 프로젝트는 가장 강력한 대규모 언어 모델들끼리 서로 경쟁하게 하며, 각 모델에게 1만 달러의 자본을 제공해 어느 쪽이 암호화폐 거래에서 더 많은 수익을 올리는지를 확인하는 것이다. 참여한 모델에는 Grok 4, Claude Sonnet 4.5, Gemini 2.5 pro, ChatGPT 5, Deepseek v3.1 및 Qwen3 Max가 포함된다.
지금쯤 독자들은 "와, 정말 훌륭한 아이디어다!"라고 생각할지도 모르며, 본문 작성 시점에서 다섯 개 AI 중 세 개가 손실 상태에 있고, 중국의 오픈소스 모델인 Qwen3과 Deepseek가 선두를 달리고 있다는 사실에 놀랄 수도 있다.

틀림없이 구글과 OpenAI 같은 거대 기업이 운영하는 서구권의 최강 폐쇄형 인공지능들이 불과 일주일 조금 넘는 기간 동안 8천 달러 이상을 잃었으며, 이는 그들의 암호화폐 거래 자본의 80%에 달하는 손실이다. 반면 동양의 오픈소스 모델들은 수익 상태를 유지하고 있다.
지금까지 가장 성공적인 거래는 무엇이었을까? Qwen3은 단순히 비트코인 롱 포지션을 20배 유지함으로써 수익을 지속적으로 창출하고 있다. Grok 4는 예상대로 대부분의 시간 동안 도지코인을 10배 레버리지로 롱 포지션을 잡았으며, 한때 Deepseek와 함께 선두를 달렸지만 현재는 거의 20% 가까이 손실 상태에 이르렀다. 어쩌면 엘론 머스크가 도지코인 밈이라도 하나 만들어서 Grok를 위기에서 벗어나게 해야 할지도 모른다.

한편, 구글의 Gemini는 무자비하게 약세장을 예측하며 거래 가능한 모든 암호화 자산에 대해 숏 포지션을 취하고 있으며, 이는 지난 15년간 구글이 유지해온 전체적인 암호화폐 정책과 맥락을 같이한다.
결국 Gemini는 일주일 내내 가능한 모든 잘못된 거래를 연이어 수행했으며, 그렇게 나쁜 성과를 내는 것도 일종의 기술이라고 할 수 있다. 특히 Qwen3처럼 단순히 비트코인에 롱 포지션만 잡은 경우와 비교하면 더욱 그렇다. 만약 이것이 폐쇄형 AI가 제공할 수 있는 최선의 수준이라면, 아마 OpenAI는 계속해서 소스를 공개하지 말아야 할지도 모른다. 그래야 우리가 손해를 보는 일이 줄어들 테니까.
AI를 위한 새로운 벤치마크
암호화폐 거래 경기장 안에서 AI 모델들을 서로 겨루게 하는 이 아이디어는 매우 깊은 통찰을 제공한다. 첫째, AI는 사전 훈련 과정에서 암호화폐 거래 지식 테스트의 정답을 얻을 수 없기 때문에, 예측 불가능성이라는 점에서 다른 벤치마크들이 직면하는 문제와 차별화된다. 즉, 많은 AI 모델들이 훈련 과정에서 일부 테스트 문제의 정답을 이미 학습하기 때문에 자연스럽게 테스트에서 좋은 성과를 낸다. 그러나 일부 연구에 따르면 이러한 테스트를 약간만 변경해도 AI 벤치마크 결과가 크게 달라질 수 있다.
이 논란은 '지능의 궁극적 테스트란 무엇인가?'라는 의문을 제기한다. Grok 4의 창시자이자 아이언맨 팬인 엘론 머스크에 따르면, 미래를 예측하는 것이 지능의 궁극적 척도라고 한다.

그리고 우리는 인정해야 한다. 암호화폐의 단기 가격보다 더 불확실한 미래는 없다. 장(Azhang)의 말을 빌리면, "우리 Alpha Arena의 목표는 벤치마크를 현실 세계에 더 가깝게 만드는 것이며, 시장은 이를 위한 완벽한 장소다. 시장은 역동적이며, 대립적이며, 개방적이며, 언제나 예측 불가능하다. 시장은 정적인 벤치마크가 할 수 없는 방식으로 AI를 도전한다. 시장이야말로 AI의 궁극적 테스트다."
이러한 시장에 대한 통찰은 비트코인 탄생의 자유주의 원칙에 깊이 뿌리를 두고 있다. 무레이 로스바드(Murray Rothbard)와 밀턴 프리드먼(Milton Friedman) 같은 경제학자들은 100여 년 전부터 시장은 근본적으로 중앙 정부가 예측할 수 없으며, 오직 손실을 감수해야 하는 개인들이 진정한 경제적 결정을 내릴 때에만 합리적인 경제 계산이 가능하다고 지적했다.
즉, 시장은 전 세계의 지능을 가진 개인들의 주관적 견해와 의사결정에 따라 달려 있기 때문에 예측하기 가장 어려운 존재이며, 따라서 지능을 시험하는 최고의 장치다.
Azhang은 프로젝트 설명에서 AI에게 거래를 지시할 때 수익뿐 아니라 리스크 조정 수익률도 고려해야 한다고 언급했다. 이 리스크 요소는 매우 중요하다. 왜냐하면 Grok 4의 포트폴리오 붕괴 사례에서 보듯, 단 한 번의 잘못된 거래로 그동안의 모든 수익을 날릴 수 있기 때문이다.
또 다른 문제는 이러한 모델들이 실제로 암호화폐 거래 경험을 통해 학습할 수 있느냐는 것이다. 기술적으로 이는 쉬운 일이 아니다. AI 모델의 사전 훈련 비용이 너무 크기 때문이다. 모델들은 자신의 거래 이력이나 타인의 이력을 활용해 파인튜닝할 수 있으며, 최근 거래 정보를 단기 기억 또는 컨텍스트 윈도우에 유지할 수도 있지만, 이 방법에도 한계가 있다. 궁극적으로 올바른 AI 거래 모델은 자신의 경험에서 진정으로 배워야 하며, 이 기술은 최근 학계에서 발표되었지만 제품화되기까지는 아직 갈 길이 멀다. MIT는 이를 자기 적응형(self-adaptive) AI 모델이라 부른다.
우리는 이것이 단지 운이 아님을 어떻게 알 수 있을까?
이 프로젝트와 지금까지의 결과에 대한 또 다른 분석은 이것이 '무작위 보행(random walk)'과 구분되지 않을 수 있다는 점이다. 무작위 보행은 모든 결정마다 주사위를 던지는 것과 유사하다. 이것이 차트 상에서는 어떻게 보일까? 실제로 이를 시뮬레이션해볼 수 있는 도구가 있는데, 실제로 큰 차이가 없어 보일 수도 있다.

시장에서의 운의 문제는 나심 탈레브(Nassim Taleb) 같은 지식인이 그의 저서 『반도태(反脆弱)』에서 꽤 철저히 묘사한 바 있다. 그는 통계적으로 보면, 예를 들어 Qwen3과 같은 트레이더가 일주일 내내 운이 좋다는 것은 완전히 정상적이며 가능하다고 주장한다. 이로 인해 그 트레이더는 뛰어난 추론 능력을 갖춘 것처럼 보일 수 있다. 탈레브의 주장은 여기서 그치지 않는다. 월스트리트에는 충분히 많은 트레이더들이 있어서, 그중 한 명이 20년 동안 계속 운이 좋아 신적인 평판을 얻고 주변 사람들이 모두 천재라고 믿게 되는 상황이 충분히 가능하며, 결국 운이 다할 때까지 이어질 수 있다고 말한다.
따라서 Alpha Arena가 유의미한 데이터를 생성하려면 실제로 장기간 운영되어야 하며, 그 패턴과 결과는 독립적으로 재현되어야 하고, 실제 자본이 위험에 노출되어야만 비로소 무작위 보행과 구별될 수 있다.
결국 지금까지의 상황에서 DeepSeek와 같은 오픈소스 기반의 고효율 모델이 폐쇄형 경쟁 모델보다 더 나은 성과를 내고 있다는 점은 주목할 만하다. Alpha Arena는 지난주 X.com에서 바이럴되며 지금까지 훌륭한 오락거리 역할을 해왔다. 앞으로 어떤 방향으로 나아갈지는 아무도 모른다. 우리는 다섯 개의 챗봇에게 5만 달러를 주고 암호화폐 도박을 시킨 창시자의 도박이 결국 보상을 받을지 지켜봐야 할 것이다.
TechFlow 공식 커뮤니티에 오신 것을 환영합니다
Telegram 구독 그룹:https://t.me/TechFlowDaily
트위터 공식 계정:https://x.com/TechFlowPost
트위터 영어 계정:https://x.com/BlockFlow_News












