一文读懂 GPT-5.5：从今天起，OpenAI “不卖” Token了

2026.04.24

分享至

TechFlow Selected 深潮精选

一文读懂 GPT-5.5：从今天起，OpenAI “不卖” Token了

更大、更贵、更智能，有人说“失去它感觉像被截肢”。

2026.04.24 - 03:01:49

AIOpenAI

专注Web3行业深度报道，洞察潮水流动的方向

更大、更贵、更智能，有人说“失去它感觉像被截肢”。

作者：海伦

当地时间 4月 23 日，OpenAI 正式发布新一代旗舰模型 GPT-5.5，官方将其定位为“面向真实工作的全新智能层级”，也是迈向全新计算机工作方式的重要一步。

这次发布核心关注的有两点：

一是效率层面的突破：同等延迟下，模型更大了，速度却没慢。GPT-5.5 上下文窗口达到 100万 Token，但它不是 GPT-5.4 简单能力升级，而是在效率上做到了同等延迟下的更高智能。

二是 GPT-5.5 在训练过程中，参与了自身推理基础设施的优化。简而言之，AI 第一次学会帮自己调参数。

在测试复杂命令行工作流的 Terminal-Bench 2.0 中，GPT-5.5 得分 82.7%，Claude Opus 4.7的 69.4%超过 13 个百分点；在测试 AI 独立操作真实电脑的 OSWorld-Verified 中，成功率 78.7%，超越人类基线；在测试跨 44 种职业知识工作的 GDPval 中，84.9%的任务达到或超过行业专家水平。

不过，GPT-5.5 的价格也明显涨了。

API 定价为每百万 Token 输入 5 美元、输出 30 美元，是 GPT-5.4（每百万 Token 输入 2.50 美元、输出 15 美元）的两倍，但官方强调 GPT-5.5 完成相同任务所需 Token 数量大幅减少，综合成本未必显著上升。GPT-5.5 Pro API 定价为每百万 Token 输入 30 美元、输出 180 美元。批量处理和弹性定价享受半价优惠，优先处理为标准价格的 2.5 倍。

在 ChatGPT 中，GPT-5.5 以“GPT-5.5 Thinking”形式上线，逐步取代此前版本。

一个新增的小设计是：模型开始思考前会先给出一段思路概述，用户可以在执行过程中随时插话，调整方向。

如果用一句话概括 GPT-5.5 的意义：过去的模型是能力的集合，GPT-5.5 更接近一个会规划、会检查、会持续推进的工作系统。

01 84.9%的任务，达到专业人士水准

GPT-5.5 与各竞品在 Terminal-Bench 2.0、GDPval、OSWorld-Verified 等核心基准测试中的对比

先看评估模型在真实职业场景中的表现。OpenAI 用了一个叫“GDPval”的基准测试，它要求模型完成一整套职业任务。测试覆盖 44 种职业场景，包括财务建模、法律分析、数据科学报告、运营规划等等。

结果显示：GPT-5.5在 84.9%的任务中达到或超过行业专业人士水平。作为对比，GPT-5.4是 83.0%，Claude Opus 4.7是 80.3%，Gemini 3.1 Pro 只有 67.3%。

这种差距不止体现在总分上。电子表格建模任务中，GPT-5.5 内部测试拿到 88.5%；投资银行级别的建模任务同样领先前代。早期测试者的反馈也挺一致：GPT-5.5 Pro 的回答在全面性、结构性和实用性上比 GPT-5.4 Pro 有明显提升，商业、法律、教育和数据科学领域尤其明显。

光看数字容易麻木，OpenAI 这次干脆掀开自家工位给你看。

OpenAI 表示，公司内部超过 85%的员工每周都在用 Codex，覆盖财务、传播、市场、产品、数据科学等多个部门。传播团队拿它分析了六个月的演讲邀约数据，搭起了一套自动化分级流程；财务团队用它审阅了 24,771份 K-1 税务表格、合计 71,637 页，比去年提前两周完工；市场拓展团队靠自动化周报生成，每人每周省下 5到 10 小时。

这不是实验室 demo，已经变成一种工作日常。

02 最强自主编程模型

OpenAI 称，GPT-5.5 目前是其最强的自主编程模型。

在 Terminal-Bench 2.0 上（测试复杂命令行工作流，需要规划、迭代与工具协调），GPT-5.5 得分 82.7%，对比 GPT-5.4的 75.1%，提升幅度接近 8 个百分点，同时 Token 消耗更少。在 SWE-Bench Pro 上（评估真实 GitHub 问题的一次性解决能力），GPT-5.5 得分 58.6%。在内部 Expert-SWE 评测上（长周期编程任务，中位人工完成时间约 20 小时），GPT-5.5 同样超越 GPT-5.4。

Terminal-Bench 2.0和 Expert-SWE 散点图

Codex在 GPT-5.5 的驱动下，已经能够从一句话的提示词出发，独立完成从代码生成、功能测试到视觉调试的完整开发流程。

OpenAI 官方展示的演示案例显示，太空任务应用基于 NASA 真实轨道数据构建，支持 3D 交互操控，轨道力学模拟达到真实物理精度；地震追踪器接入实时数据源并完成可视化，说明模型已具备调用外部 API、处理动态数据并实时渲染的完整能力。

对于使用反馈方面。Every 创始人兼 CEO Dan Shipper 讲了一段经历：他之前遇到过一个上线后的 bug，自己调了好几天没搞定，最后只能请公司最强的工程师出手，重写了一部分系统。GPT-5.5 出来后，他做了个实验——把模型放回 bug 还没修的那个状态，看它能不能自己得出和工程师一样的方案。GPT-5.4 做不到，GPT-5.5 做到了。他评价："这是我用过的第一个真正具备概念清晰度的编程模型"。

一位英伟达工程师的评价更直白："失去 GPT-5.5 的访问权限，感觉就像截肢"。

Cursor 联合创始人兼 CEO Michael Truell 对此的补充是：GPT-5.5比 GPT-5.4 更聪明、更坚韧，在复杂长时任务中能坚持更久而不提前停下——而这恰恰是工程工作最需要的。

03 知识工作：AI 第一次真正能“用”电脑

在 OSWorld-Verified 测试中（测试模型能否独立操作真实计算机环境），GPT-5.5 成功率 78.7%，高于 GPT-5.4的 75.0%，也优于 Claude Opus 4.7的 78.0%。

这不是截图分析，而是真正的屏幕操控：看到界面、点击、输入、在多个工具之间切换，直到任务完成。GPT-5.5 让人第一次感受到，AI 可以真正与你共同使用同一台电脑。

财务建模演示视频

在电信客服工作流测试 Tau2-bench 上，GPT-5.5 在无提示词调优情况下准确率达 98.0%，GPT-5.4 仅为 92.8%。

这意味着模型对任务意图的理解足够深入，不需要精心设计提示词就能处理复杂的多步骤对话流程。

在工具搜索能力上，GPT-5.5在 BrowseComp 测试中得分 84.4%，GPT-5.5 Pro 更达 90.1%，意味着在需要跨多个信息来源综合推理的研究类任务中，模型表现出了相当强的持续检索和信息整合能力。

04 科学研究：协助发现数学新证明

在这次发布中，GPT-5.5 在科研领域的表现，可能是最出人意料的一部分。

过去我们谈 AI 做科研，更多是“辅助工具”，用来查文献、写代码、整理数据。但这一次，它的角色明显前移，开始参与更核心的环节：复杂推理，甚至是发现本身。

在 GeneBench 上（遗传学和定量生物学多阶段数据分析评测），GPT-5.5 得分 25.0%，GPT-5.4为 19.0%。这些任务通常对应科学专家数天的工作量，模型需要在几乎没有监督的情况下推理可能存在错误的数据、应对隐藏的混杂因素，并正确实施现代统计方法。

从图表曲线可以看出，随着输出 Token 数量的增加，GPT-5.5 的得分提升幅度始终领先于 GPT-5.4，且在约 15,000Token 处出现明显拉开——这意味着面对需要深度推理的长任务，GPT-5.5 的优势会随任务复杂度的提升而进一步放大。

在 BixBench（真实世界生物信息学和数据分析基准测试）上，GPT-5.5以 80.5%的得分领先于 GPT-5.4的 74.0%，在已发布得分的模型中位居前列。

真正引发关注的是一个具体案例：配备自定义工具框架的 GPT-5.5 内部版本，协助发现了一项关于拉姆齐数的新数学证明，并在形式化证明工具 Lean 中得到验证。拉姆齐数是组合数学的核心研究对象，该领域的成果十分罕见，技术难度极高。这不是 AI 提供代码或解释，而是真正贡献了一个数学论证。

实际应用层面同样有说服力。Jackson 实验室免疫学教授 Derya Unutmaz用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集，生成详细研究报告，提炼出关键发现和研究问题——他表示这项工作通常需要团队耗费数月。

波兹南亚当·密茨凯维奇大学数学系助理教授 Bartosz Naskręcki，仅凭一条提示词，用 Codex 中的 GPT-5.5在 11 分钟内构建出一款代数几何应用，可视化两个二次曲面的交线并将所得曲线转化为魏尔斯特拉斯模型。右侧实时显示的方程系数可直接用于后续数学研究，从提示词到可运行的研究工具，全程由模型独立完成。

Bartosz Naskręcki 教授构建的代数几何应用截图——二次曲面相交可视化与魏尔斯特拉斯方程实时计算界面

Axiom Bio 联合创始人 Brandon White 的评价更为直接：“如果 OpenAI 保持这一势头，年底前药物发现的基础将会发生改变。”

05 推理效率：AI 第一次帮自己优化了基础设施

这次发布有一个容易被忽视的细节，但它可能是技术层面最值得关注的进展。

GPT-5.5 是一个更大、更强的模型，但它在实际服务中的单 Token 延迟与 GPT-5.4 持平。要在更强的能力下维持同等延迟，OpenAI 将推理系统作为整体重新设计——而 Codex和 GPT-5.5 本身在这一过程中直接参与了优化。

从 Artificial Analysis 智能指数图可以直观看出这一点：横轴是输出 Token 总量（对数刻度），纵轴是综合智能得分。GPT-5.5 的曲线不仅在得分上全面领先 GPT-5.4、Claude Opus 4.7和 Gemini 3.1 Pro Preview，更关键的是，它在 Token 消耗较少的区间就已经达到其他模型需要消耗更多 Token 才能达到的得分水平——更强的能力，更低的成本，这正是“效率提升”的直观体现。