OpenAIが新たにo1モデルを発表、我々は正式に次の時代へと踏み出した

2024.09.13

共有先

TechFlow厳選深潮セレクト

OpenAIが新たにo1モデルを発表、我々は正式に次の時代へと踏み出した

AGIへの道のりにおいて、もはや障害は何もない。

2024.09.13 - 02:28:27

OpenAIo1

Web3業界の深掘り報道に専念し潮流を洞察

AGIへの道のりにおいて、もはや障害は何もない。

著者：カジク

深夜に、OpenAIが半年近く抽象化を続けてきた新モデルが、

何の予告もなく正式に登場した。

正式名称は「ストロベリー」ではなく、「ストロベリー」はあくまで内部でのコードネーム。彼らの正式な名前は次の通り：

なぜo1と名付けたのか、OpenAIはこう説明している：

For complex reasoning tasks this is a significant advancement and represents a new level of AI capability. Given this, we are resetting the counter back to 1 and naming this series OpenAI o1.

日本語訳：

複雑な推論タスクにおいて、これは重要な進展であり、AI能力の新たなレベルを示している。このため、カウンターを1に戻し、このシリーズをOpenAI o1と命名する。

今回のモデルの強さは、OpenAIが過去のGPTシリーズの命名を捨てて、新たにoシリーズを立ち上げるほどだった。

衝撃的だ、本当に衝撃的だ。

今、私は頭皮がゾワゾワしている。正直に言って、OpenAI o1のリリースは、AI業界が完全に新しい時代に入ったことを象徴している。

「AGIへの道のりには、もはや何の障害もない。」

論理的・推論能力に関しては、まず最初に図を示す。これを見れば、どれほど異常な性能かすぐにわかるだろう。

AIME 2024という高度な数学コンテストでは、GPT-4oの正答率は13.4％、o1プレビュー版は56.7％、未発表のo1正式版は83.3％。

プログラミング競技では、GPT-4oが11.0％、o1プレビュー版が62％、o1正式版が89％。

そして最も驚異的なのは博士レベルの科学問題（GPQA Diamond）で、GPT-4oは56.1、人間の専門家は69.7だが、o1は恐怖の78％を記録した。

Claudeにo1の図を翻訳してもらった。見た目はちょっとダサいが、各データの意味は理解できる。

これが「完全な圧倒」である。

特に化学・物理・生物学の専門知識をテストするベンチマークGPQA-diamondでは、o1は人間の博士級専門家を完全に上回り、史上初めてこの成果を達成したモデルとなった。

このモデルがこのような成果を挙げられた基盤はSelf-play RLにある。これを知らない人は、私の数日前の予測記事を参照：新モデル「ストロベリー」とは一体何か？

Self-play RLを通じ、o1は自身の思考チェーンを磨き、使用する戦略を洗練させることを学んだ。自らの誤りを認識し、修正することも学んだ。

また、複雑なステップをより簡単なステップに分解することも学んだ。

さらに、現在のアプローチが機能しない場合、別の方法を試みることも学んだ。

こうした学びこそが、私たち人間が持つ最も核心的な思考様式——スローシンキング（遅い思考）——なのである。

ノーベル経済学賞受賞者のダニエル・カーネマンは著書『ファスト＆スロー思考の法則』で、人間の二種類の思考様式を詳細に解説している。

第一は「速い思考（システム1）」。特徴は迅速・自動的・直感的・無意識的。例を挙げると：

笑顔を見て、相手の気分が良いとわかる。
1+1=2のような簡単な計算。
運転中に危険を感じ、即座にブレーキを踏む。

これらが「速い思考」であり、従来の大規模モデルが暗記に基づいて習得した高速反応能力に相当する。

第二は「遅い思考（システム2）」。特徴は遅い・努力を要する・論理的・意識的。例を挙げると：

複雑な数学の問題を解く。
税務申告書を記入する。
利害を天秤にかけ、重要な決定を下す。

これが「遅い思考」であり、人間が強力な存在である核心でもあり、AIが次なる段階AGIへ向かうための基盤でもある。

そして今、o1はついに確かな一歩を踏み出し、人間の「遅い思考」の特性を獲得した。回答の前に、繰り返し考え、分解し、理解し、推論を行い、最終的な答えを導き出す。

正直に言って、これらの強化された推論能力は、科学・コーディング・数学などの複雑な問題を扱う際に、極めて有用である。

例えば、医療研究者が細胞配列データの注釈付けにo1を利用でき、物理学者が量子光学に必要な複雑な数式を生成でき、さまざまな分野の開発者がマルチステップのワークフローを構築・実行するために利用できるなど、無数の応用が可能だ。

o1はまったく新しい世代のデータ飛輪でもある。答えが正しければ、その論理チェーン全体が、正負の報酬を含む小さな訓練用データセットとなる。

OpenAIのユーザー規模を考えれば、将来の進化速度はさらに恐ろしくなるだろう。

ここまで書いて、ふとため息が出た。一年後のo1と比べたら、自分はまるっきり役立たずかもしれない、本当に…。

現在、o1モデルは段階的にすべてのChatGPT PlusおよびTeamユーザーに開放されている。将来的には無料ユーザーにも開放される予定。

2つのモデルに分かれており、o1プレビュー版とo1-mini。o1-miniはより高速・小型・低コストで、推論性能も良好。数学とコードに非常に適しているが、世界知識はかなり劣る。推論が必要だが広範な世界知識を必要としないシナリオに最適。

o1プレビュー版は週30件、o1-miniは週50件の制限。

以前のように3時間ごとの制限ではなく、週30件という制限からも、o1モデルがどれほど高価なのかがうかがえる。

開発者向けには、すでに1000ドル支払ったレベル5の開発者のみに提供され、毎分20回の制限がある。

いずれもかなり少ない。

機能面でもかなり制限されているが、初期段階なので仕方ない。

API価格は、o1プレビュー版が100万トークンの入力あたり15ドル、出力あたり60ドル。この推論コスト…

o1-miniはもう少し安く、入力100万トークンあたり3ドル、出力100万トークンあたり12ドル。

出力コストはいずれも推論コストの4倍。比較としてGPT-4oはそれぞれ5ドルと15ドル。

o1-miniならまだ多少経済性はあるが、まだ始まったばかり。今後OpenAIが大幅値下げしてくれることを期待したい。

o1がすでにPlusユーザーに開放されているという話なので、自分のアカウントを確認したら、ちゃんとアクセスできた。

当然、すぐに試してみた。

現時点では、画像理解・画像生成・コードインタープリタ・ウェブ検索など、これまでのすべての機能は非対応。会話のみ可能な裸のモデルだ。

まずはかつて致命的だった問題を一つ投げかけてみた：

「農夫が狼・羊・白菜を川の向こう岸に連れて行く必要がある。しかし一度に一つのものしか運べず、狼と羊を一緒に残せないし、羊と白菜を一緒に残すこともできない。農夫はどうやって渡ればよいか？」

6秒の思考時間を経て、完璧な回答をくれた。

続いて、これまでの大規模モデルをことごとく苦しめた中国の「代休調整問題」：

「2024年9月9日（月曜日）から10月13日までの中国の休日と代休のスケジュールは次の通り：6日働いて3日休み、3日働いて2日休み、5日働いて1日休み、2日働いて7日休み、さらに5日働いて1日休む。本来の週末以外に、何日多く休んだことになるか？」

o1が実に30秒間考えた末、一日の誤差もなく極めて正確な答えを出した。

無敵、本当に無敵だ。

さらに難しい問題に挑戦。かつて姜萍が参加した数学コンクールの難問：

問題の意味は私にはわからない。私は無能だ。この問題はかつてすべての大規模モデルを虐殺したが、今回はo1に挑戦させてみよう。

o1が1分以上考えた後、答えを出した。

...

全…部…正解…

私は崩壊した。

今のところ自分で試した限り、プロンプトの書き方も今後再考が必要だと感じる。GPT代表の「速い思考」モデル時代には「ステップバイステップで考えて」などといったテクニックが有効だったが、今はすべて無効になり、o1に対してはむしろ逆効果ですらある。

OpenAIが推奨する最適な書き方は以下の通り：

プロンプトはシンプルで直接的に保つ：このモデルは短く明確な指示を理解・応答するのが得意であり、過剰なガイダンスは不要。
思考チェーンのプロンプトを避ける：これらのモデルは内部で推論を行うため、「ステップバイステップで考えろ」「あなたの推論を説明しろ」といった指示は不要。
区切り文字を使って明瞭性を高める：三重引用符・XMLタグ・章タイトルなどを使い、入力の異なる部分を明確に区別することで、モデルが適切に解釈しやすくなる。
RAG（検索拡張生成）における追加コンテキストを制限する：追加のコンテキストや文書を提供する際は、最も関連性の高い情報だけを含め、モデルの応答が過度に複雑化しないようにする。

最後に、思考時間について述べたい。

今のo1は1分程度考えるが、本物のAGIになると、正直に言って、もっと長い思考時間が刺激的かもしれない。

もし本当に数学の定理の証明や、癌治療薬の開発、天体物理学の研究などをできるようになったらどうだろうか？

そのときの1回の「思考」が、数時間・数日、あるいは数週間続くかもしれない。

その結果は、すべての人を信じられないほど驚かせるだろう。

誰も想像できないほど、そのときのAIがどのような存在になっているか。

そして私が見るo1の未来は、決して普通のChatGPTにとどまらない。

それは次の時代へ向かう、最も偉大な礎石となるだろう。

「AGIへの道のりには、もはや何の障害もない。」

今、私はこの言葉を心から信じている。

輝かしい次の時代が。

今日。