
GPT-5.5を一文で理解する:本日より、OpenAIはトークンを「販売しない」
TechFlow厳選深潮セレクト

GPT-5.5を一文で理解する:本日より、OpenAIはトークンを「販売しない」
より大きく、より高価で、よりスマート——ある人は「それを失うと、まるで切断されたような気がする」と言っている。
著者:ヘレン
現地時間4月23日、OpenAIは新世代のフラッグシップモデル「GPT-5.5」を正式に発表しました。同社はこれを「実際の業務に即した新たな知能レベル」と位置づけ、コンピューターによる作業方式を一新する重要な一歩と評価しています。
今回の発表では、以下の2点が特に注目されています。
第一に、効率面での飛躍的進化です。同等の遅延(レイテンシー)を維持しながら、モデル規模を拡大し、速度を落とさずに性能を向上させました。GPT-5.5のコンテキスト・ウィンドウは100万トークンに達しますが、これは単なるGPT-5.4の能力強化ではなく、同一レイテンシー下でより高度な知能を実現したものです。
第二に、GPT-5.5はトレーニング過程において、自らの推論インフラストラクチャーの最適化に直接関与しました。要するに、AIが初めて「自らのパラメーター調整」を学んだのです。
複雑なコマンドライン・ワークフローを評価するベンチマーク「Terminal-Bench 2.0」では、GPT-5.5のスコアは82.7%で、Claude Opus 4.7の69.4%を13ポイント以上上回りました。AIが実際のコンピューターを独立して操作する能力を評価する「OSWorld-Verified」では成功率78.7%を記録し、人間のベースラインを上回りました。さらに、44職種の専門的知識作業を網羅するベンチマーク「GDPval」では、84.9%のタスクで業界の専門家水準に達するか、それを上回る結果を出しました。
ただし、GPT-5.5の価格も明確に上昇しています。
API価格は、入力100万トークンあたり5米ドル、出力100万トークンあたり30米ドルで、GPT-5.4(入力100万トークンあたり2.50米ドル、出力100万トークンあたり15米ドル)の2倍です。しかし同社は、GPT-5.5が同一タスクを完了するのに必要なトークン数が大幅に削減されるため、総合的なコスト増加は必ずしも顕著ではないと強調しています。また、「GPT-5.5 Pro」APIの価格は、入力100万トークンあたり30米ドル、出力100万トークンあたり180米ドルです。バッチ処理および柔軟価格プランには50%割引が適用され、優先処理は標準価格の2.5倍となります。
ChatGPTでは、GPT-5.5が「GPT-5.5 Thinking」という形で提供され、段階的に従来のバージョンに置き換わっていきます。
新たに追加された小さな機能として、モデルが思考を開始する前にまず概要的な思考プロセスを提示するようになります。ユーザーは実行中に随時介入し、方向性を調整することが可能です。
GPT-5.5の意義を一言でまとめるとすれば:「これまでのモデルは能力の集合体であったが、GPT-5.5は計画し、検証し、継続的に推進する作業システムにより近づいた」といえるでしょう。
01 84.9%のタスクで専門家水準を達成
GPT-5.5と各競合モデルのTerminal-Bench 2.0、GDPval、OSWorld-Verified等主要ベンチマークにおける比較
まずは、モデルが実際の職業シーンでいかに振る舞うかを評価しましょう。OpenAIは「GDPval」と呼ばれるベンチマークを用いて、モデルが一連の職業的タスクを遂行できるかをテストしました。このテストは財務モデリング、法的分析、データサイエンス報告書作成、オペレーション計画など、44の職業シナリオをカバーしています。
その結果、GPT-5.5は84.9%のタスクで業界の専門家水準に達するか、それを上回りました。対照的に、GPT-5.4は83.0%、Claude Opus 4.7は80.3%、Gemini 3.1 Proはわずか67.3%でした。
こうした差異は、単なる総合スコアに留まりません。例えば、電子表格モデリングのタスクでは、GPT-5.5の内部テストスコアは88.5%に達し、投資銀行レベルのモデリングタスクでも前世代を明確に凌駕しています。初期のテストユーザーからのフィードバックも一貫しており、「GPT-5.5 Proの回答は、包括性、構造性、実用性のすべての面でGPT-5.4 Proを明確に上回っている」との評価が多く、特にビジネス、法務、教育、データサイエンス分野でその傾向が顕著です。
数字だけを見ていると感覚が麻痺しがちですが、今度はOpenAIが自社のオフィスの様子をそのまま公開してくれました。
同社によれば、社内スタッフの85%以上が毎週Codexを活用しており、財務、広報、マーケティング、製品、データサイエンスなど多様な部門にわたっています。広報チームは6か月分のスピーチ依頼データを分析し、自動化されたランク付けプロセスを構築;財務チームは24,771件のK-1納税申告書(計71,637ページ)を審査し、前年比で2週間早く完了;マーケットエクスパンションチームは自動化された週次レポート生成により、各メンバーが週に5~10時間の工数を節約しています。
これは単なるラボでのデモではなく、すでに日常業務の一部となっています。
02 最強の自律プログラミングモデル
OpenAIは、GPT-5.5を現時点で自社最強の自律プログラミングモデルと位置づけています。
複雑なコマンドライン・ワークフロー(計画・反復・ツール連携が必要)を評価する「Terminal-Bench 2.0」では、GPT-5.5のスコアは82.7%で、GPT-5.4の75.1%を約8ポイント上回り、同時にトークン消費量も減少しています。「SWE-Bench Pro」(実際のGitHub問題を一度で解決できる能力を評価)では58.6%のスコアを記録。また、内部で実施された「Expert-SWE」評価(長期間にわたるプログラミング課題、人間による平均所要時間は約20時間)でも、GPT-5.5はGPT-5.4を上回りました。
Terminal-Bench 2.0およびExpert-SWEの散布図
GPT-5.5によって駆動されるCodexは、たった1文のプロンプトから、コード生成、機能テスト、ビジュアルデバッグに至るまで、完全な開発プロセスを自律的に完遂できるようになりました。
OpenAIが公式に公開したデモンストレーション事例では、NASAの実際の軌道データを基に構築された宇宙ミッションアプリケーションが紹介されており、3Dインタラクティブ操作をサポート、軌道力学シミュレーションは実物理精度を達成しています。また、リアルタイムデータソースに接続し可視化を実現する地震トラッカーも紹介されており、モデルが外部API呼び出し、動的データ処理、リアルタイムレンダリングといった一連の能力を完全に備えていることが示されています。
ユーザーのフィードバックについても触れておきましょう。Every社の創業者兼CEOであるダン・シッパー氏は、以下のような経験を語っています。彼はかつて、サービスリリース後に発生したバグを数日間自らデバッグできず、最終的に社内で最も優れたエンジニアに依頼してシステムの一部を書き直してもらうという事態に至りました。GPT-5.5の登場後、彼はそのバグがまだ修正されていない状態に戻して、モデルがエンジニアと同じ解決策を導き出せるかを試験しました。GPT-5.4では不可能でしたが、GPT-5.5ではそれが成功しました。彼の評価はこうです。「これは私がこれまでに使った中で、初めて概念的な明瞭さを備えたプログラミングモデルだ」。
あるNVIDIAのエンジニアの評価はさらに率直です。「GPT-5.5へのアクセス権を失うことは、まるで四肢切断を経験するようなものだ」。
Cursor社の共同創設者兼CEOマイケル・トゥレル氏は補足的に、GPT-5.5はGPT-5.4よりも賢く、より粘り強く、複雑で長期にわたるタスクにおいて、途中で停止せずに最後まで遂行できる——まさにエンジニアリング作業に最も求められる特性だと指摘しています。
03 知識労働:AIが初めて真正に「コンピューターを“使う”」
実際のコンピューター環境を自律的に操作できるかを評価する「OSWorld-Verified」テストでは、GPT-5.5の成功率は78.7%で、GPT-5.4の75.0%やClaude Opus 4.7の78.0%を上回りました。
これは単なるスクリーンショット解析ではなく、実際に画面を見てクリックし、入力し、複数のツール間を切り替えてタスクを完了させる、本物のスクリーン操作です。GPT-5.5によって、AIが初めて本当に「あなたと同じ一台のコンピューターを共に使う」ことを実感できるようになったのです。
財務モデリングのデモンストレーション動画
通信業界のカスタマーサポート・ワークフローを評価する「Tau2-bench」では、GPT-5.5はプロンプトチューニングなしで98.0%の正確率を達成し、GPT-5.4の92.8%を大きく上回りました。
これは、モデルがタスクの意図を深く理解しており、複雑な多段階対話フローを、精巧に設計されたプロンプトを必要とせずに処理できるということを意味します。
ツール検索能力については、「BrowseComp」テストでGPT-5.5は84.4%、GPT-5.5 Proはさらに90.1%のスコアを記録しました。これは、複数の情報源を横断して統合的推論を行う研究系タスクにおいて、モデルが非常に高い持続的検索・情報統合能力を有していることを示しています。
04 科学研究:数学的新証明の発見を支援
今回の発表において、GPT-5.5の科学研究分野における成果は、おそらく最も予想外の部分かもしれません。
これまでAIが科学研究を支援するという話は、文献検索、コード作成、データ整理といった「補助ツール」の範疇に留まっていました。しかし今回は、その役割が明確に前進し、より核心的な環節——複雑な推論、さらには「発見」そのものにまで及んでいます。
遺伝学および定量生物学における多段階データ分析を評価する「GeneBench」では、GPT-5.5は25.0%のスコアを記録し、GPT-5.4の19.0%を上回りました。これらのタスクは通常、科学専門家が数日かけて取り組むもので、ほとんど監督のない状況下で、誤りを含む可能性のあるデータを推論し、隠れた混在要因に対応し、現代的な統計手法を正しく適用する必要があります。
グラフ上の曲線からもわかるように、出力トークン数の増加に伴い、GPT-5.5のスコア上昇幅は常にGPT-5.4を上回っており、約15,000トークン付近で明確な差が開いています——つまり、深層推論を要する長時間タスクにおいて、GPT-5.5の優位性はタスクの複雑さとともにさらに拡大していくのです。
実世界のバイオインフォマティクスおよびデータ分析を評価する「BixBench」では、GPT-5.5は80.5%のスコアでGPT-5.4の74.0%を上回り、既に公表されているスコアを持つモデルの中でもトップクラスに位置しています。
真に注目を集めたのは、具体的な事例です。カスタムツールフレームワークを搭載したGPT-5.5の内部バージョンが、ラムゼー数に関する新しい数学的証明の発見を支援し、形式的証明ツールLeanにおいてその妥当性が確認されました。ラムゼー数は組合せ論の核心的研究対象であり、この分野の成果は極めて稀少で、技術的難易度も非常に高いものです。これはAIが単にコードや解説を提供するにとどまらず、真正に数学的な論証に貢献したことを意味します。
実用面でも説得力があります。ジャクソン研究所の免疫学教授デリャ・ウントゥマズ氏は、GPT-5.5 Proを用いて、62サンプル・約28,000遺伝子からなる遺伝子発現データセットを分析し、詳細な研究報告書を作成、鍵となる発見と研究課題を抽出しました——彼によれば、この作業は通常、チームで数か月を要するものです。
ポズナン・アダム・ミツケヴィチ大学数学科の助教授バルトシュ・ナスケンチェキ氏は、単一のプロンプトのみを用いて、Codex内のGPT-5.5を活用し、11分間で代数幾何学アプリケーションを構築しました。このアプリケーションは2つの二次曲面の交線を可視化し、得られた曲線をワイエルシュトラス形式に変換します。右側にリアルタイム表示される方程式係数は、その後の数学的研究に直接利用可能であり、プロンプトから実行可能な研究ツールに至るまで、すべてをモデルが自律的に完遂しています。
バルトシュ・ナスケンチェキ教授が構築した代数幾何学アプリケーションのスクリーンショット——二次曲面の交差可視化とワイエルシュトラス方程式のリアルタイム計算インターフェース
Axiom Bioの共同創設者ブランドン・ホワイト氏の評価はさらに直接的です。「もしOpenAIがこの勢いを維持すれば、今年末までに医薬品発見の基礎が変わるだろう」。
05 推論効率:AIが初めて自らのインフラを最適化
今回の発表には、見過ごされがちな細部がありますが、それが技術的に最も注目に値する進展かもしれません。
GPT-5.5はより大規模でより強力なモデルですが、実際のサービス運用における1トークンあたりのレイテンシーはGPT-5.4と同等です。より強力な能力を維持しつつ、同じレイテンシーを保つために、OpenAIは推論システム全体を再設計しました——そして、このプロセスにCodexとGPT-5.5自身が直接関与しました。
Artificial Analysisの「インテリジェンス指数」グラフから、この点は一目瞭然です。横軸は出力トークン総量(対数目盛)、縦軸は総合知能スコアです。GPT-5.5の曲線は、GPT-5.4、Claude Opus 4.7、Gemini 3.1 Pro Previewを全面的に上回るだけでなく、特に重要なのは、他のモデルがより多くのトークンを消費してようやく到達するスコアを、GPT-5.5は少ないトークン数で既に達成していることです——つまり、より強力な能力と、より低いコストという「効率の向上」が、ここに明確に可視化されています。
Artificial Analysis インテリジェンス指数折れ線グラフ
具体的には、チームが直面していた課題はロードバランスでした。従来は、リクエストを固定サイズのブロックに分割してGPU負荷を均等化していましたが、静的な分割方式はすべてのトラフィックパターンに対して最適ではありませんでした。Codexは数週間にわたる本番トラフィックデータを分析し、独自のヒューリスティックアルゴリズムを記述することで、トークン生成速度を20%以上向上させました。
GPT-5.5は、NVIDIA GB200およびGB300 NVL72システムと協調設計・協調トレーニング・協調展開されています。言い換えれば、本世代のモデルは、自らが動作する推論アーキテクチャの最適化に直接関与したのです——これは比喩ではなく、文字通り「AIが自らを実行するシステムを改良した」という意味です。
06 サイバーセキュリティ:能力向上と同時進行の管理強化
GPT-5.5はサイバーセキュリティ能力においても明確な向上を遂げています。「CyberGym」テストでは81.8%のスコアを記録し、GPT-5.4の79.0%やClaude Opus 4.7の73.1%を上回りました。また、社内での「キャプチャー・ザ・フラッグ(CTF)」チャレンジタスクでは88.1%のスコアを達成し、GPT-5.4の83.7%を上回りました。
CyberGymの棒グラフおよびCTFチャレンジタスクの散布図
OpenAIは、GPT-5.5のサイバーセキュリティおよび生物/化学関連能力を、緊急対応準備枠組み(Emergency Preparedness Framework)下で「高」レベルと評価しています。現時点では「重要」レベルには至っていませんが、前世代と比べて明確な向上が認められます。一方で、新しく導入されたより厳格なリスク分類器について、「一部のユーザーは当初、やや不便に感じられるかもしれない」とも率直に認め、今後も継続的に調整していくとしています。
防御ニーズとアクセス制限のバランスを取るため、OpenAIは「サイバーセキュリティ信頼アクセス(Cybersecurity Trusted Access)プログラム」を開始しました。条件を満たすセキュリティ研究者および重要インフラ防衛担当者は、より緩やかなアクセス権限を申請でき、高度なサイバーセキュリティ機能をよりスムーズに利用できます。
その背後にあるロジックとは、サイバーセキュリティや、あるいは生物関連の能力のように、技術の拡散はほぼ不可逆的であるという認識に基づいています。誰にも使用を徹底的に制限しようとするのではなく、むしろ「真に防御活動を行う人々に、最先端のツールを優先的に提供する」という考え方へと転換したのです。要するに、これは「開放するか否か」という問いではなく、「まず誰に使ってもらうか」という問いなのです。
TechFlow公式コミュニティへようこそ
Telegram購読グループ:https://t.me/TechFlowDaily
Twitter公式アカウント:https://x.com/TechFlowPost
Twitter英語アカウント:https://x.com/BlockFlow_News











