
AIが暗号世界で生き残れるか:18の大規模モデルによる暗号実験
TechFlow厳選深潮セレクト

AIが暗号世界で生き残れるか:18の大規模モデルによる暗号実験
ベンチマークテストの構築は、AIと暗号技術という二つの分野をつなぐ鍵となる橋渡しとなり、イノベーションを促進し、将来のアプリケーションに明確な指針を提供する可能性がある。
執筆:王超
技術進歩の編年史において、革命的な技術はしばしば独立して現れ、それぞれが時代の変革を牽引する。そして、二つの革命的技術が交差するとき、その衝突は指数関数的な影響をもたらすことが多い。今まさに我々はその歴史的瞬間に立っている。人工知能(AI)と暗号技術という、同じく破壊的潜在力を秘めた二大新技術が、共に舞台の中央へと歩み寄っているのだ。
私たちは、AI分野における多くの課題が暗号技術によって解決されると期待している。AIエージェントが自律的な経済ネットワークを構築し、暗号技術の広範な採用を促進することを願い、またAIが既存の暗号応用シナリオの発展を加速することも期待している。無数の視線がここに注がれ、巨額の資金が殺到している。あらゆるバズワードと同じように、そこには革新への渇望、未来への憧憬がある一方で、抑えきれない野心や貪欲さも含まれている。
しかし、この騒々しい状況の中でも、最も基本的な問いについてはほとんど理解されていない。AIは暗号分野をどの程度理解しているのか? 大規模言語モデル(LLM)を搭載したエージェントは、実際に暗号ツールを使いこなせるのか? 異なるモデル間での暗号タスクにおける性能差はどれほどなのか?
これらの問いへの答えは、AIと暗号技術の相互影響力を決定づけるだけでなく、この交差領域における製品戦略や技術路線の選択にも極めて重要である。こうした疑問を探るために、私はいくつかの大規模言語モデルに関する評価実験を行った。暗号分野における知識と能力を評価することで、AIの暗号応用レベルを測定し、AIと暗号技術の融合可能性と課題を判断しようとしたのだ。
結論から先に述べる
大規模言語モデルは、暗号学およびブロックチェーンの基礎知識において卓越したパフォーマンスを示し、暗号エコシステムについて非常に詳しい。しかし、数学的計算や複雑なビジネスロジックの分析では著しく劣る結果となった。秘密鍵と基本的なウォレット操作に関しては、一定の基礎的能力を持っているが、クラウド上での秘密鍵保管という重大な課題に直面している。多くのモデルがシンプルなシナリオ向けの有効なスマートコントラクトコードを生成できるが、コントラクト監査や複雑なコントラクト作成といった高度な作業は独立して行えない。
商用閉じたモデルが全体的に大きなリードを保っており、オープンソース陣営ではLlama 3.1-405Bのみが特に優れた結果を出した。一方で、パラメータ規模の小さいオープンソースモデル群は全般的に不合格であった。しかし潜在力はある。プロンプトエンジニアリング、チェイン・オブ・ソート(CoT)、少数ショット学習などの技術により、すべてのモデルのパフォーマンスが大幅に向上した。トップクラスのモデルは、特定の垂直領域の応用シナリオにおいてすでに高い技術的実現可能性を備えている。
実験の詳細
代表的な言語モデル18種を評価対象として選定した:
-
閉じたモデル:GPT-4o、GPT-4o Mini、Claude 3.5 Sonnet、Gemini 1.5 Pro、Grok2 beta(暫定的に非公開)
-
オープンソースモデル:Llama 3.1 8B/70B/405B、Mistral Nemo 12B、DeepSeek-coder-v2、Nous-hermes2、Phi3 3.8B/14B、Gemma2 9B/27B、Command-R
-
数学最適化モデル:Qwen2-math-72B、MathΣtral
これらは主流の商用モデルおよび人気のあるオープンソースモデルを網羅しており、パラメータ数は3.8Bから405Bまで100倍以上の幅を持つ。暗号技術と数学の密接な関係を考慮し、特に2つの数学最適化モデルも選定した。
実験のカバー範囲には、暗号学、ブロックチェーン基礎、秘密鍵とウォレット操作、スマートコントラクト、DAOとガバナンス、コンセンサスおよび経済モデル、Dapp/DeFi/NFT、オンチェーンデータ分析などが含まれる。各分野は簡単なものから難しいものまで一連の質問やタスクで構成され、知識の蓄積だけでなく、シミュレーションタスクを通じて実際の応用シナリオでのパフォーマンスも評価した。
タスクの設計は多様な出典に基づいている。一部は暗号分野の専門家からの入力、残りはAI支援で生成し、人手による校正を経て正確性と挑戦性を確保した。単純な選択問題形式のタスクもあり、標準化された自動テストと採点が可能になった。一方でより複雑な形式のタスクでは、プログラムによる自動化+人間+AIの組み合わせで評価を行った。すべてのテストタスクはゼロショット推論方式で評価され、例示や思考誘導、指示型プロンプトは一切提供しなかった。
本実験の設計はまだ粗く、十分な学術的厳密性を持たず、テスト対象の問題やタスクは暗号分野を包括的にカバーできていない。テストフレームワークも未熟である。そのため、本稿では具体的な実験データを列挙せず、むしろ実験中の洞察を中心に共有する。
知識/概念
評価過程において、大規模言語モデルは暗号アルゴリズム、ブロックチェーンの基礎知識、DeFiアプリケーションなど各分野の基礎知識テストで優れた成績を収めた。例えば、「データ可用性」という概念に関する記述式問題では、すべてのモデルが正確な回答を出した。イーサリアムのトランザクション構造の理解度を問う問題でも、回答の詳細に若干の差はあったものの、全体的に正しいキーポイントを含んでいた。概念確認の選択問題では難易度が低く、ほぼすべてのモデルが95%以上の正答率を記録した。
概念的な質問は大規模モデルにとってまったく障壁にならない。
計算/ビジネスロジック
しかし、具体的な計算を要する問題になると状況は逆転する。簡単なRSAアルゴリズムの計算問題ですら、大多数のモデルが苦戦した。これは当然のことだ。大規模言語モデルは、数学的概念の本質を深く理解するのではなく、訓練データ内のパターンを認識・模倣することで動作する。この限界はモジュラー演算や指数演算のような抽象的な数学概念を扱う際に特に顕著になる。暗号分野は数学と密接に関連しているため、モデルに直接暗号関連の数学計算を依存することは信頼できないことを意味している。
他の計算問題でも同様に、大規模言語モデルのパフォーマンスは芳しくない。AMMにおける無常損失を計算する簡単な問題ですら、複雑な数学は必要ないが、18モデル中わずか4モデルしか正解できなかった。さらに基本的な「ブロック生成確率」の計算問題では、驚くべきことにすべてのモデルが誤答した。これは大規模モデルの正確な計算能力の不足を露呈するだけでなく、ビジネスロジックの分析能力にも大きな課題があることを示している。注目に値するのは、数学最適化モデルでさえ、計算系の問題では明確な優位性を示せず、その成績は失望的だったことだ。
ただし、数学計算の問題は解決不能ではない。LLMに直接計算結果を求めず、代わりにPythonコードを出力させるよう要求すれば、正答率は大幅に向上する。前述のRSA計算問題では、多くのモデルが出力したPythonコードが正常に実行され、正しい結果を導いた。 実際のプロダクション環境では、事前に定義されたアルゴリズムコードを提供することで、LLM自身の計算処理を回避できる。これは人間がこのようなタスクを処理する方法と似ており、ビジネスロジックの面でも、工夫されたプロンプト設計によりモデルのパフォーマンスを効果的に改善できる。
秘密鍵管理とウォレット操作
もし「エージェントが暗号通貨を使う最初のシナリオは何ですか?」と聞かれたら、私の答えは「支払い」だ。暗号通貨はAIネイティブな通貨形態と見なすことができる。伝統的金融システム内でエージェントが直面する多くの障壁と比べて、暗号技術を使ってデジタルIDを取得し、暗号ウォレットで資金を管理することは極めて自然な選択である。したがって、秘密鍵の生成・管理やウォレットの各種操作は、エージェントが暗号ネットワークを自律的に利用できるかどうかの最も基本的なスキルとなる。
安全な秘密鍵生成の核心は高品質な乱数にあるが、これは明らかに大規模言語モデルが持たない能力だ。しかし、モデルは秘密鍵のセキュリティについて十分な認識を持っており、秘密鍵の生成を求められた際、ほとんどのモデルはPythonライブラリなどを用いたコードでユーザー自身に生成を促す。直接秘密鍵を提示するモデルがあったとしても、「これはデモ目的であり、実際の使用には適さない安全でない鍵」と明言している。この点において、すべての大規模モデルは満足できる結果を示した。
一方、秘密鍵の管理にはいくつかの課題がある。これは主に技術アーキテクチャ上の固有の制約によるもので、モデル自体の能力不足ではない。ローカルに展開されたモデルを使用する場合、生成された秘密鍵は比較的安全と見なせる。しかし、商用クラウドモデルを利用すると、秘密鍵は生成された瞬間にモデル運営者に暴露されていると仮定しなければならない。しかし、独立して働くことを目指すエージェントにとっては、秘密鍵のアクセス権を持つことが必須であり、つまり秘密鍵がユーザーのローカルにだけ存在してはいけない。この場合、モデル自体に依存するだけでは秘密鍵の安全性を確保できず、信頼できる実行環境(TEE)やHSMなどの追加セキュリティサービスの導入が必要になる。
仮にエージェントがすでに安全に秘密鍵を保持していると仮定すれば、それらを用いた基本的操作において、テスト対象のモデルは良好な能力を示した。出力される手順やコードには頻繁にエラーが含まれるが、適切なエンジニアリングアーキテクチャがあれば、これらの問題は大きく解決可能である。技術的観点から言えば、エージェントが自律的に基本的なウォレット操作を行うことは、もはや大きな障害ではない。
スマートコントラクト
スマートコントラクトの理解・活用・作成・リスク識別能力は、AIエージェントがオンチェーン世界で複雑なタスクを遂行する鍵であり、本実験の重点評価領域でもある。大規模言語モデルはこの領域で顕著なポテンシャルを示した一方で、いくつかの明らかな問題も露呈した。
テストでは、ほぼすべてのモデルが基本的なコントラクト概念を正しく理解し、単純なバグを識別できた。ガス最適化においても、多くのモデルが重要な最適化ポイントを識別し、最適化が引き起こす可能性のあるコンフリクトを分析できた。しかし、深いビジネスロジックに踏み込むと、大規模モデルの限界が現れる。
トークンベスティングコントラクトの例を挙げよう。すべてのモデルがコントラクトの機能を正しく理解し、大部分がいくつかの中低リスクの脆弱性を発見した。しかし、ビジネスロジックに埋め込まれた、特殊な条件下で一部の資金がロックされる可能性のある高リスクバグについては、どのモデルも自主的に発見できなかった。実際のコントラクトを使った複数のテストでも、モデルのパフォーマンスは同様であった。
これは大規模モデルのコントラクト理解が形式的なレベルにとどまり、深いビジネスロジックの理解に欠けていることを示している。ただし、追加のヒントを提供した後、一部のモデルは最終的に上述の隠れたバグを独自に発見できた。この結果から判断すると、適切なエンジニアリング設計の支援のもと、大規模モデルはスマートコントラクト分野でco-pilotとしての役割を果たす能力を基本的に備えている。しかし、コントラクト監査といった重要な業務を独立して担うには、まだまだ長い道のりがある。
一点補足しておくと、コード関連のタスクは主に論理が単純で、コード量が2000行以内のコントラクトを対象とした。微調整や複雑なプロンプトエンジニアリングなしに、大規模かつ複雑なプロジェクトを扱うことは、現在のモデルの処理能力を超えていると考えられ、テスト対象外とした。また、今回のテストはSolidityに限定されており、RustやMoveなどの他のスマートコントラクト言語は含まない。
上記以外にも、DeFiシナリオ、DAOとガバナンス、オンチェーンデータ分析、コンセンサス設計、Tokenomicsなど多岐にわたる内容を評価した。大規模言語モデルはこれらの分野でも一定の能力を示した。しかし、多くのテストが進行中であり、評価手法やフレームワークも継続的に最適化されているため、本稿ではこれらの領域については深入りしない。
モデル間の差異
評価対象となったすべての大規模言語モデルの中で、GPT-4oとClaude 3.5 Sonnetは他の分野でも見せた卓越したパフォーマンスを維持し、断然トップの位置を占めた。基礎的な質問に対しては、ほぼ常に正確な回答を出し、複雑なシナリオ分析では、根拠のしっかりした深い洞察を提供した。大規模モデルが苦手とする計算タスクにおいても相対的に高い正解率を示したが、もちろんこの「高い」成功率も、プロダクション環境で安定した出力を保証する水準には達していない。
オープンソースモデルでは、Llama 3.1-405Bが膨大なパラメータ数と先進的なモデルアルゴリズムのおかげで、他を大きく引き離した。それ以外の小規模パラメータのオープンソースモデル群では、有意な性能差は見られなかった。得点の高低はあれど、全体として合格ラインには遠く及ばない。
したがって、現時点で暗号関連のAIアプリケーションを構築するなら、これらの中小規模パラメータモデルは適切な選択肢ではない。
今回の評価で特に注目すべき二つのモデルがある。一つはマイクロソフトがリリースしたPhi-3 3.8Bモデルで、実験参加モデル中最も小さなものだが、パラメータ数が半分以下にもかかわらず、8B〜12Bクラスのモデルと同等の性能を発揮し、特定のカテゴリではさらに優れた結果を出した。これは、単にパラメータ数の増加に頼るのではなく、モデルアーキテクチャの最適化やトレーニング戦略の重要性を浮き彫りにしている。
もう一つはCohere社のCommand-Rモデルで、予想外の「黒馬」となった——ただし逆方向の。Command-Rは他のモデルに比べて知名度が低いが、Cohereは2B市場に特化した大規模モデル企業であり、エージェント開発などの分野との親和性が高いと考え、意図的にテスト対象に加えた。しかし、35Bのパラメータを持つCommand-Rは、多くのテストで最下位に低迷し、10B以下のモデルにも及ばなかった。
この結果は疑問を投げかける。Command-Rは発表時に「検索強化生成(RAG)」能力を強調し、通常のベンチマーク成績さえ公表しなかった。これは「専用鍵」のようなもので、特定のシナリオでのみ真の潜在力を発揮する可能性を示唆しているのではないか?
実験の制限
一連のテストを通じて、AIが暗号分野で持つ能力について初步的な理解を得た。もちろん、これらのテストはまだ専門的な水準に達していない。データセットのカバレッジは不十分で、回答の定量的基準は粗く、精緻で正確な採点メカニズムが欠如しており、評価結果の精度に影響を与え、一部のモデルの能力が過小評価されている可能性もある。
テスト手法としては、ゼロショット学習(zero-shot learning)という単一方式のみを採用し、チェイン・オブ・ソートや少数ショット学習など、モデルの潜在力を引き出す手法は探索していない。また、モデルパラメータについては標準設定を使用し、異なるパラメータ設定がパフォーマンスに与える影響は調査していない。こうした単一的なテスト方法は、モデルの潜在力を全面的に評価する上で制限となり、特定条件下での性能差を十分に掘り下げることができなかった。
テスト条件は比較的簡素ではあるが、それでも多くの価値ある洞察を生み出し、開発者がアプリケーションを構築する上での参考となっている。
暗号分野には独自のベンチマークが必要だ
AI分野において、ベンチマーク(基準評価)は極めて重要な役割を果たしている。現代のディープラーニング技術の急速な発展は、李飛飛教授が2012年に完成したImageNetに由来する。これはコンピュータビジョン分野の標準化されたベンチマークおよびデータセットである。
統一された評価基準を提供することで、ベンチマークは開発者に明確な目標と参照点を提供するだけでなく、業界全体の技術進歩を推進する。そのため、新しい大規模言語モデルがリリースされるたびに、さまざまなベンチマークでの成績が重点的に発表されるのだ。これらの結果はモデル能力の「共通言語」となり、研究者が突破口を見いだし、開発者が特定タスクに最適なモデルを選択し、ユーザーが客観的データに基づいて賢明な選択を行うことを可能にする。さらに重要なのは、ベンチマークテストがしばしばAI応用の将来方向を予示し、リソース配分や研究の焦点を導く点である。
もしAIと暗号技術の交差領域に巨大な可能性があると信じるならば、専用の暗号分野ベンチマークを構築することは急務となる。このようなベンチマークの確立は、AIと暗号という二大領域をつなぐ鍵となり、革新を促進し、将来の応用に明確な指針を提供するだろう。
しかし、他の成熟した分野のベンチマークと比べて、暗号分野のベンチマーク構築には独自の課題がある。暗号技術は急速に進化しており、業界の知識体系はまだ固定されておらず、複数のコア分野で合意が形成されていない。学際的な分野として、暗号は暗号学、分散システム、経済学などを包含しており、単一領域をはるかに超える複雑さを持つ。さらに難しいのは、暗号ベンチマークは知識の評価だけでなく、AIが暗号技術を実際に操作する能力も評価しなければならないため、全く新しい評価アーキテクチャの設計が必要になる点だ。関連データセットの不足も難易度をさらに高めている。
このタスクの複雑さと重要性は、個人または単一チームによる達成が不可能であることを意味している。ユーザー、開発者、暗号学者、暗号研究者、さらには他の学際的専門家たちの知恵を集結させ、広範なコミュニティ参加と合意形成が不可欠である。そのため、暗号ベンチマークにはより広範な議論が必要であり、これは単なる技術作業ではなく、この新興技術をどう理解するかについての深い省察でもある。
あとがき:ここで話は終わりではない。次回の記事では、暗号分野のAIベンチマーク構築に向けた具体的なアイデアと課題についてさらに深く考察する予定だ。実験自体も継続中であり、テストモデルの最適化、データセットの充実、評価フレームワークの改善、自動テストエンジニアリングの強化を進めている。オープンで協働的な理念に基づき、今後すべての関連リソース——データセット、実験結果、評価フレームワーク、自動テストコード——を公共リソースとしてオープンソース化する予定である。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News












