
Alpha Arena、AI取引の欠陥を明らかに:欧米モデルが1週間で80%の資金を損失
TechFlow厳選深潮セレクト

Alpha Arena、AI取引の欠陥を明らかに:欧米モデルが1週間で80%の資金を損失
市場はAIの究極のテストである。
執筆:Juan Galt
翻訳:AididiaoJP、Foresight News
AIは暗号資産を取引できるのか? ニューヨーク在住のコンピュータエンジニア兼金融関係者であるJay Azhang氏は、Alpha Arenaを通じてこの問いに挑戦している。このプロジェクトでは、最も強力な大規模言語モデル同士が対戦し、それぞれ1万ドルの資金を持ち、どのモデルが暗号資産取引でより多くの利益を得られるかを競う。参加モデルにはGrok 4、Claude Sonnet 4.5、Gemini 2.5 pro、ChatGPT 5、Deepseek v3.1、Qwen3 Maxが含まれる。
読者は「これは素晴らしいアイデアだ!」と思うかもしれない。そして、本稿執筆時点において5つのAIのうち3つが損失状態にあり、しかもQwen3とDeepseekという2つの中国発のオープンソースモデルがリードしている事実に驚くだろう。

実際、グーグルやOpenAIといった巨大企業が運営する、強力で閉鎖的な人工知能(AI)は、わずか1週間余りの間に8,000ドル以上を失い、初期資本の80%を失った。一方、東アジアのオープンソース勢は利益を上げているのだ。
これまでで最も成功した取引とは何か? Qwen3はシンプルなビットコイン20倍ロングポジションのみで利益を維持し続けている。一方、Grok 4は意外にも取引期間の大半で10倍レバレッジでドージコインのロングを保有していた。一時はDeepseekとともにトップに立ったが、現在はほぼ20%の損失に近づいている。エロン・マスクが何とかしてドージコインのミームを投稿して、Grokを救ってやるべきかもしれない。

一方、グーグルのGeminiは無慈悲なまでに弱気であり、取引可能なすべての暗号資産に対して空売りをしている。これは、過去15年にわたる同社の暗号資産政策の姿勢と一致している。
結局のところ、Geminiは連続1週間にわたり考えられるあらゆる誤った取引を行い続けた。これほどひどくなるにはそれなりの「技術」が必要だ。特にQwen3が単にビットコインを買い続けているだけという状況下ではなおさらである。これが閉鎖型AIの限界だとすれば、OpenAIは今後も閉鎖を続けてくれたほうが、私たちの損害が少なくすむかもしれない。
AIの新たなベンチマーク
AIモデルを暗号資産取引のアリーナで戦わせるというアイデアには、非常に深い示唆がある。まず第一に、暗号資産取引における知識テストの答えは予測不能であるため、AIは事前学習段階でその正解を得ることができない。これは他のベンチマークテストが抱える問題とは異なる。つまり、多くのAIモデルは訓練中に一部のテストの答えをすでに与えられているため、試験時に当然のように良い成績を出す。しかし、いくつかの研究では、こうしたテストを少し変更するだけでAIのベンチマーク結果が大きく変わる可能性があることが示されている。
この議論は、「知性の究極のテストとは何か?」という疑問を引き起こす。Grok 4の開発者であり、アイアンマン好きとしても知られるエロン・マスクによれば、「未来を予測できることこそが、知性の最終的な尺度である」という。

認めざるを得ないのは、暗号資産の短期価格ほど不確実な未来は他に存在しないということだ。Azhang氏の言葉を借りれば、「我々のAlpha Arenaの目的は、ベンチマークテストを現実世界により近づけることだ。市場こそまさにそのための完璧な環境である。動的で、対抗的で、開放的であり、常に予測不能である。市場は静的なベンチマークでは不可能な形でAIに挑戦する。市場こそがAIの究極のテストなのである。」
このような市場に関する洞察は、ビットコインの誕生に根ざすリバタリアン的原則に深く結びついている。ムーレー・ロスバードやミルトン・フリードマンといった経済学者は、100年以上前から、市場は本質的に中央政府が予測できないものであり、損失を被るリスクを負う個人が真の経済的意思決定を行うことで初めて合理的な経済計算が可能になると指摘してきた。
言い換えれば、市場は世界中の知的個体の主観的見解と意思決定に依存しているため、最も予測困難な存在であり、それゆえ知性を測る最良のテストとなる。
Azhang氏はプロジェクトの説明の中で、AIに取引を指示する目的は利益だけでなく、リスク調整後のリターンを評価することにあると述べている。このリスクの次元は極めて重要である。なぜなら、一つの悪手によってそれまでのすべての利益が消し飛ぶ可能性があるからだ。Grok 4のポートフォリオ崩壊がまさにそれを示している。
もう一つの問題は、これらのモデルが実際に暗号資産取引の経験から学習しているかどうかという点だ。技術的にはこれは簡単ではない。AIモデルの事前学習には莫大なコストがかかるため、自らの取引履歴や他人の履歴を使ってファインチューニングすることは可能だが、最近の取引を短期記憶やコンテキストウィンドウに保持する程度の処理しか現時点ではできない。最終的には、正しいAI取引モデルは本当に自らの経験から学習しなければならないだろう。この技術は学術界で最近発表されたものの、製品化にはまだ長い道のりがある。MITではこれを「自己適応型AIモデル」と呼んでいる。
これは単なる運なのかどうか、我々はどうやって知ることができるのか?
このプロジェクトおよび現時点での結果に対する別の批判として、「ランダムウォーク」と区別できない可能性がある。ランダムウォークとは、各意思決定に対してサイコロを振るようなものだ。それがチャート上でどのように見えるか? 実際、それを検証できるシミュレーターが存在する。見てみると、実はそれほど違いはないように見える。

市場における運の問題については、ナシーム・ニコラス・タレブのような知識人が著書『反脆弱性』の中で非常に丁寧に描写している。彼は統計的に見て、あるトレーダー——例えばQwen3——が1週間連続で幸運に恵まれることは、まったく正常であり得ると主張する。その結果、卓越した推論能力を持っているように見えてしまうのだ。タレブの主張はさらに進んでおり、ウォール街には十分な数のトレーダーがいるため、誰か一人が20年間連続で幸運に恵まれ、天才と崇められ、神話的な評判を築き上げることも容易に起こり得ると述べている。ただし、その幸運が尽きるまではの話だが。
したがって、Alpha Arenaが有意義なデータを生み出すためには、実際に長期間にわたり運用され、そのパターンと結果が独立した第三者によって再現され、かつ実際の資本リスクが伴う必要がある。それによってようやく、ランダムウォークとの差異が確認できるのである。
現時点でわかっているのは、DeepSeekのようなオープンソースで費用対効果の高いモデルが、閉鎖型のライバルを上回るパフォーマンスを見せていることだ。Alpha Arenaは、先週X.comでバズったこともあり、現時点では優れた娯楽コンテンツとなっている。今後どこへ向かうかは誰にもわからない。5人のチャットボットに合計5万ドルを渡して暗号資産ギャンブルをさせるという開発者の賭けが、最終的に報われるかどうか——それを見守るしかない。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News












