
一文读懂 GPT-5.5:从今天起,OpenAI “不卖” Token了
TechFlow Selected 深潮精选

一文读懂 GPT-5.5:从今天起,OpenAI “不卖” Token了
更大、更贵、更智能,有人说“失去它感觉像被截肢”。
作者:海伦
当地时间 4月 23 日,OpenAI 正式发布新一代旗舰模型 GPT-5.5,官方将其定位为“面向真实工作的全新智能层级”,也是迈向全新计算机工作方式的重要一步。
这次发布核心关注的有两点:
一是效率层面的突破:同等延迟下,模型更大了,速度却没慢。GPT-5.5 上下文窗口达到 100万 Token,但它不是 GPT-5.4 简单能力升级,而是在效率上做到了同等延迟下的更高智能。
二是 GPT-5.5 在训练过程中,参与了自身推理基础设施的优化。简而言之,AI 第一次学会帮自己调参数。
在测试复杂命令行工作流的 Terminal-Bench 2.0 中,GPT-5.5 得分 82.7%,Claude Opus 4.7的 69.4%超过 13 个百分点;在测试 AI 独立操作真实电脑的 OSWorld-Verified 中,成功率 78.7%,超越人类基线;在测试跨 44 种职业知识工作的 GDPval 中,84.9%的任务达到或超过行业专家水平。
不过,GPT-5.5 的价格也明显涨了。
API 定价为每百万 Token 输入 5 美元、输出 30 美元,是 GPT-5.4(每百万 Token 输入 2.50 美元、输出 15 美元)的两倍,但官方强调 GPT-5.5 完成相同任务所需 Token 数量大幅减少,综合成本未必显著上升。GPT-5.5 Pro API 定价为每百万 Token 输入 30 美元、输出 180 美元。批量处理和弹性定价享受半价优惠,优先处理为标准价格的 2.5 倍。
在 ChatGPT 中,GPT-5.5 以“GPT-5.5 Thinking”形式上线,逐步取代此前版本。
一个新增的小设计是:模型开始思考前会先给出一段思路概述,用户可以在执行过程中随时插话,调整方向。
如果用一句话概括 GPT-5.5 的意义:过去的模型是能力的集合,GPT-5.5 更接近一个会规划、会检查、会持续推进的工作系统。
01 84.9%的任务,达到专业人士水准
GPT-5.5 与各竞品在 Terminal-Bench 2.0、GDPval、OSWorld-Verified 等核心基准测试中的对比
先看评估模型在真实职业场景中的表现。OpenAI 用了一个叫“GDPval”的基准测试,它要求模型完成一整套职业任务。测试覆盖 44 种职业场景,包括财务建模、法律分析、数据科学报告、运营规划等等。
结果显示:GPT-5.5在 84.9%的任务中达到或超过行业专业人士水平。作为对比,GPT-5.4是 83.0%,Claude Opus 4.7是 80.3%,Gemini 3.1 Pro 只有 67.3%。
这种差距不止体现在总分上。电子表格建模任务中,GPT-5.5 内部测试拿到 88.5%;投资银行级别的建模任务同样领先前代。早期测试者的反馈也挺一致:GPT-5.5 Pro 的回答在全面性、结构性和实用性上比 GPT-5.4 Pro 有明显提升,商业、法律、教育和数据科学领域尤其明显。
光看数字容易麻木,OpenAI 这次干脆掀开自家工位给你看。
OpenAI 表示,公司内部超过 85%的员工每周都在用 Codex,覆盖财务、传播、市场、产品、数据科学等多个部门。传播团队拿它分析了六个月的演讲邀约数据,搭起了一套自动化分级流程;财务团队用它审阅了 24,771份 K-1 税务表格、合计 71,637 页,比去年提前两周完工;市场拓展团队靠自动化周报生成,每人每周省下 5到 10 小时。
这不是实验室 demo,已经变成一种工作日常。
02 最强自主编程模型
OpenAI 称,GPT-5.5 目前是其最强的自主编程模型。
在 Terminal-Bench 2.0 上(测试复杂命令行工作流,需要规划、迭代与工具协调),GPT-5.5 得分 82.7%,对比 GPT-5.4的 75.1%,提升幅度接近 8 个百分点,同时 Token 消耗更少。在 SWE-Bench Pro 上(评估真实 GitHub 问题的一次性解决能力),GPT-5.5 得分 58.6%。在内部 Expert-SWE 评测上(长周期编程任务,中位人工完成时间约 20 小时),GPT-5.5 同样超越 GPT-5.4。
Terminal-Bench 2.0和 Expert-SWE 散点图
Codex在 GPT-5.5 的驱动下,已经能够从一句话的提示词出发,独立完成从代码生成、功能测试到视觉调试的完整开发流程。
OpenAI 官方展示的演示案例显示,太空任务应用基于 NASA 真实轨道数据构建,支持 3D 交互操控,轨道力学模拟达到真实物理精度;地震追踪器接入实时数据源并完成可视化,说明模型已具备调用外部 API、处理动态数据并实时渲染的完整能力。
对于使用反馈方面。Every 创始人兼 CEO Dan Shipper 讲了一段经历:他之前遇到过一个上线后的 bug,自己调了好几天没搞定,最后只能请公司最强的工程师出手,重写了一部分系统。GPT-5.5 出来后,他做了个实验——把模型放回 bug 还没修的那个状态,看它能不能自己得出和工程师一样的方案。GPT-5.4 做不到,GPT-5.5 做到了。他评价:"这是我用过的第一个真正具备概念清晰度的编程模型"。
一位英伟达工程师的评价更直白:"失去 GPT-5.5 的访问权限,感觉就像截肢"。
Cursor 联合创始人兼 CEO Michael Truell 对此的补充是:GPT-5.5比 GPT-5.4 更聪明、更坚韧,在复杂长时任务中能坚持更久而不提前停下——而这恰恰是工程工作最需要的。
03 知识工作:AI 第一次真正能“用”电脑
在 OSWorld-Verified 测试中(测试模型能否独立操作真实计算机环境),GPT-5.5 成功率 78.7%,高于 GPT-5.4的 75.0%,也优于 Claude Opus 4.7的 78.0%。
这不是截图分析,而是真正的屏幕操控:看到界面、点击、输入、在多个工具之间切换,直到任务完成。GPT-5.5 让人第一次感受到,AI 可以真正与你共同使用同一台电脑。
财务建模演示视频
在电信客服工作流测试 Tau2-bench 上,GPT-5.5 在无提示词调优情况下准确率达 98.0%,GPT-5.4 仅为 92.8%。
这意味着模型对任务意图的理解足够深入,不需要精心设计提示词就能处理复杂的多步骤对话流程。
在工具搜索能力上,GPT-5.5在 BrowseComp 测试中得分 84.4%,GPT-5.5 Pro 更达 90.1%,意味着在需要跨多个信息来源综合推理的研究类任务中,模型表现出了相当强的持续检索和信息整合能力。
04 科学研究:协助发现数学新证明
在这次发布中,GPT-5.5 在科研领域的表现,可能是最出人意料的一部分。
过去我们谈 AI 做科研,更多是“辅助工具”,用来查文献、写代码、整理数据。但这一次,它的角色明显前移,开始参与更核心的环节:复杂推理,甚至是发现本身。
在 GeneBench 上(遗传学和定量生物学多阶段数据分析评测),GPT-5.5 得分 25.0%,GPT-5.4为 19.0%。这些任务通常对应科学专家数天的工作量,模型需要在几乎没有监督的情况下推理可能存在错误的数据、应对隐藏的混杂因素,并正确实施现代统计方法。
从图表曲线可以看出,随着输出 Token 数量的增加,GPT-5.5 的得分提升幅度始终领先于 GPT-5.4,且在约 15,000Token 处出现明显拉开——这意味着面对需要深度推理的长任务,GPT-5.5 的优势会随任务复杂度的提升而进一步放大。
在 BixBench(真实世界生物信息学和数据分析基准测试)上,GPT-5.5以 80.5%的得分领先于 GPT-5.4的 74.0%,在已发布得分的模型中位居前列。
真正引发关注的是一个具体案例:配备自定义工具框架的 GPT-5.5 内部版本,协助发现了一项关于拉姆齐数的新数学证明,并在形式化证明工具 Lean 中得到验证。拉姆齐数是组合数学的核心研究对象,该领域的成果十分罕见,技术难度极高。这不是 AI 提供代码或解释,而是真正贡献了一个数学论证。
实际应用层面同样有说服力。Jackson 实验室免疫学教授 Derya Unutmaz用 GPT-5.5 Pro 分析了一个包含 62 个样本、近 28,000 个基因的基因表达数据集,生成详细研究报告,提炼出关键发现和研究问题——他表示这项工作通常需要团队耗费数月。
波兹南亚当·密茨凯维奇大学数学系助理教授 Bartosz Naskręcki,仅凭一条提示词,用 Codex 中的 GPT-5.5在 11 分钟内构建出一款代数几何应用,可视化两个二次曲面的交线并将所得曲线转化为魏尔斯特拉斯模型。右侧实时显示的方程系数可直接用于后续数学研究,从提示词到可运行的研究工具,全程由模型独立完成。
Bartosz Naskręcki 教授构建的代数几何应用截图——二次曲面相交可视化与魏尔斯特拉斯方程实时计算界面
Axiom Bio 联合创始人 Brandon White 的评价更为直接:“如果 OpenAI 保持这一势头,年底前药物发现的基础将会发生改变。”
05 推理效率:AI 第一次帮自己优化了基础设施
这次发布有一个容易被忽视的细节,但它可能是技术层面最值得关注的进展。
GPT-5.5 是一个更大、更强的模型,但它在实际服务中的单 Token 延迟与 GPT-5.4 持平。要在更强的能力下维持同等延迟,OpenAI 将推理系统作为整体重新设计——而 Codex和 GPT-5.5 本身在这一过程中直接参与了优化。
从 Artificial Analysis 智能指数图可以直观看出这一点:横轴是输出 Token 总量(对数刻度),纵轴是综合智能得分。GPT-5.5 的曲线不仅在得分上全面领先 GPT-5.4、Claude Opus 4.7和 Gemini 3.1 Pro Preview,更关键的是,它在 Token 消耗较少的区间就已经达到其他模型需要消耗更多 Token 才能达到的得分水平——更强的能力,更低的成本,这正是“效率提升”的直观体现。
Artificial Analysis 智能指数折线图
具体来说,团队面临的问题是负载均衡:此前将请求拆分为固定数量的块以均衡 GPU 工作,但静态分块对所有流量形态并非最优。Codex 分析了数周的生产流量数据,编写了自定义启发式算法,将 Token 生成速度提升超过 20%。
GPT-5.5与 NVIDIA GB200和 GB300 NVL72 系统协同设计、协同训练和协同部署。换句话说,这一代模型参与优化了服务自身的推理架构——这不是比喻,是字面意义上的“AI 改进了跑自己的系统”。
06 网络安全:能力提升,管控同步收紧
GPT-5.5 在网络安全能力上有明确提升。在 CyberGym 测试中,GPT-5.5 得分 81.8%,GPT-5.4为 79.0%,Claude Opus 4.7为 73.1%。在内部“夺旗”(CTF)挑战任务中,GPT-5.5 得分 88.1%,GPT-5.4为 83.7%。
CyberGym 柱状图与 CTF 挑战任务散点图
OpenAI将 GPT-5.5 的网络安全和生物/化学能力评级定为应急准备框架下的“高”级,尚未达到“关键”级,但相比前代有明确提升。与此同时也坦承,新部署的更严格风险分类器“部分用户最初可能会觉得有些不便”,并将持续调整。
为平衡防御需求与访问限制,OpenAI 推出了“网络安全可信访问”计划:符合条件的安全研究人员和关键基础设施防御者可申请更宽松的访问权限,以更少摩擦使用高级网络安全能力。
究其背后的逻辑,像网络安全、甚至生物相关的能力,技术扩散几乎是不可逆的趋势。与其试图彻底限制所有人使用,不如换一种思路——让真正做防御的人,优先用上最先进的工具。简而言之,这不是一个“要不要开放”的问题,关键是“先给谁用”。
欢迎加入深潮TechFlow官方社群
Telegram订阅群:https://t.me/TechFlowDaily
Twitter官方账号:https://x.com/TechFlowPost
Twitter英文账号:https://x.com/BlockFlow_News











