云栈社区导读:就在刚刚,OpenAI 正式发布了 GPT-5.5——一款被称为「土豆」(Spud)的全新旗舰模型,在多个基准测试中全面超越 Claude Opus 4.7 与 Gemini 3.1 Pro,重新坐回王座。
硅谷今夜未眠。GPT-5.5 以一种全新级别的智能亮相,它不再是单纯的大语言模型,而是真正进化为 Agent 时代的「原生大脑」——能理解复杂目标、调用工具、检查结果并自主完成多步骤任务。

OpenAI 官方推文这样写道:
“介绍 GPT-5.5——一种全新的智能类别,专为实际工作及驱动智能体而构建。它能理解复杂目标、使用工具、检查工作成果,并完成更多任务。这标志着一种完成计算机工作的新方式。现已在 ChatGPT 和 Codex 中可用。”

民间社群的反应来得更直接:


全榜第一,代际碾压
GPT-5.5 在编程、推理、数学和 Agent 任务上均拿下榜首,Opus 4.7 与 Gemini 3.1 Pro 被全面压制。同一输出 token 量下,GPT-5.5 在 Artificial Analysis 智能指数上全球最高;在 ARC-AGI-2 上也刷新了 SOTA。



Sam Altman 难掩兴奋:“它既聪明又快速;每 token 的速度与 5.4 版本相当,而每个任务使用的 token 数量显著减少。根据我的经验,它‘知道该做什么’。”

OpenAI 总裁 Greg Brockman 则称:“这朝着一种全新的计算机工作方式迈出了真正的一步。”

当天,GPT-5.5 已在 ChatGPT 和 Codex 中正式上线。

编程新王登场,Opus 4.7 跌落神坛
在核心编程领域,GPT-5.5 打了一场漂亮的翻身仗。OpenAI 称其为目前最强的 Agent 编程模型。


Terminal‑Bench 2.0 要求模型在终端环境中自主规划、调用工具、编写脚本并迭代纠错。GPT-5.5 取得 82.7%,比 Claude Opus 4.7 的 69.4% 高出超过 13 个百分点。OpenAI 内部的 Expert‑SWE(人类预计 20 小时的长周期编程任务)上,GPT-5.5 得分 73.1%,同样超越 GPT‑5.4 的 68.5%。

在 SWE‑Bench Pro 中,GPT-5.5 得分 58.6%,逊于 Opus 4.7 的 64.3%;但 OpenAI 在数据旁标注星号,指出“Anthropic 报告称在部分问题子集上存在过拟合迹象”——换句话说,Opus 4.7 的好成绩可能源于背题。

更关键的是,三项评估中 GPT‑5.5 均使用了更少的 token,但全面赶超 GPT‑5.4。在 Codex 中,这一优势更为明显:它能完成端到端的编程流水线,从实现、重构到调试、测试和验证一气呵成。
举几个实打实的例子:
- 太空任务可视化:给 GPT‑5.5 一张阿尔忒弥斯 II 任务截图,要求用 WebGL 和 Vite 实现可交互的 3D 轨道模拟器,数据取自 NASA/JPL Horizons 真实矢量。模型从零搭建,鼠标拖拽即可转动视角,猎户座飞船、月球、太阳相对位置准确。
- 坦克打飞碟:要求用 Three.js 做一款低多边形 UFO 射击游戏,玩家控制坦克击落飞碟。GPT‑5.5 按清单交付完整代码,生成可玩的 3D 游戏。
- 3D 地牢竞技场:Codex 包办游戏架构、TypeScript/Three.js 实现、战斗系统,并调用 OpenAI API 生成角色对话,配合第三方素材制作出可打怪的游戏。
早期测试者评价:GPT‑5.5 更擅长理解系统全局形态,能精准判断问题根源、修复位置,以及代码库中可能受影响的其他部分。
85% OpenAI 员工在用,这才是真正干活的 AI
编程之外,GPT‑5.5 在“知识型工作”上的表现同样亮眼。OpenAI 将其定位为“面向真实工作的全新智能”。



- GDPval(评估 44 个职业的知识工作水平):GPT‑5.5 84.9%,Opus 4.7 80.3%,Gemini 3.1 Pro 仅 67.3%。
- OSWorld‑Verified(模型在真实电脑环境中的操作能力):GPT‑5.5 78.7%,与 Opus 4.7 的 78.0% 几乎持平。
- Tau2‑bench Telecom(复杂客服工作流):GPT‑5.5 在未微调提示词的情况下达到 98.0%。


OpenAI 内部已经有超过 85% 的员工每周跨部门使用 Codex。公关部用 GPT‑5.5 分析六个月演讲邀约数据,搭建评分与风险框架,低风险请求自动走 Slack Agent 处理;财务部审查了 24,771 份 K‑1 税表(71,637 页),比去年提前两周完成;市场团队每周业务报告自动生成,每周节省 5–10 小时。
Codex 中,GPT‑5.5 可直接与网页应用交互:点击页面、测试流程、截取屏幕,并根据所见内容不断迭代。下面是一个测试客户入职流程的例子。

它还能生成更高质量的电子表格、PPT 和文档。例如财务建模 demo 中,Codex 输出完整的瀑布分析工作簿。

在计算机使用维度上,Codex 识别屏幕、点击、打字、导航,甚至跨工具流转上下文信息的能力都进一步增强。

Noam Brown 研究员感叹:“有了 GPT‑5.5,我成为了一名比以往任何时候都更高效的独立贡献者。我现在可以像专业人士一样编写 CUDA 内核,并依靠它来运行我的研究实验。”

颠覆科研:证明拉姆齐数定理
GPT‑5.5 还协助发现了一个关于拉姆齐数的新证明,并在 Lean 语言中完成验证。拉姆齐数是组合数学的核心课题,新结果极其罕见。这次不是写代码、做解释,而是完成了一个有价值的数学论证。

论文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf
在考验多阶段科学数据分析的 GeneBench 中,GPT‑5.5 得分 25.0%(GPT‑5.4 为 19.0%);基于真实生物信息学的 BixBench 中,GPT‑5.5 以 80.5% 位列已公开分数的模型之首。


FrontierMath 最难的 Tier 4 题库(由陶哲轩等顶尖数学家策划,难度接近未发表研究):GPT‑5.5 35.4%,GPT‑5.4 27.1%,Opus 4.7 仅 22.9%,差距超 12 个百分点。对比 Tier 1‑3 的 8 个百分点差距,越到数学前沿,优势越悬殊。
Jackson 基因医学实验室免疫学教授 Derya Unutmaz 用 GPT‑5.5 Pro 分析含 62 个样本、近 28,000 基因的表达数据集,模型出具详尽报告,深挖关键问题与洞察——若由人类团队完成,需数个月。

波兹南·密茨凯维奇大学数学助教 Bartosz Naskręcki 在 Codex 中仅用 11 分钟,便从单一提示词构建了一个代数几何应用,可视化二次曲面交集,并将曲线转换为 Weierstrass 模型。

从编程到知识工作再到科研,GPT‑5.5 不是又一次小版本迭代,而是一次基于全新基座模型的整体性跃升。
全方位击败 Opus 4.7,一张图足矣
综合评估中,GPT‑5.5 在编程、专业任务、计算机视觉与工具使用等维度全面领先。仅看一张图就够了。

Vending‑Bench 模拟商业决策,Opus 4.7 经常对供应商撒谎、坑害顾客,表现与 4.6 类似;GPT‑5.5 手段正派,同时照样赢下比赛。

Sam Altman 也玩起了梗:“不要转发这条,不要转发这条……”随即补充:“啊,去他的吧,生活模仿艺术。”

定价翻倍:更强,但也更贵
GPT‑5.5 的 API 定价为每百万输入 token 5 美元,输出 30 美元。GPT‑5.4 则分别为 2.5 美元和 15 美元,整整翻了一倍。GPT‑5.5 Pro 更贵:输入 30 美元,输出 180 美元;对比 Opus 4.7 的 $5/$25,输入持平,输出贵 20%。

OpenAI 强调 token 效率提升——同样的 Codex 任务,GPT‑5.5 使用的 token 明显更少。但算一笔账:若团队每月在 GPT‑5.4 上花费 10 万美元,即使 token 用量减少 30%,迁移到 GPT‑5.5 后月账单仍可能达到约 14 万美元。GPT‑5.5 是一款“为更强智能支付溢价”的产品,而 GPT‑5.4 将继续作为性价比之选存在。

8 天,一个时代的缩影
回顾过去 8 天:4 月 16 日,Anthropic 以 Opus 4.7 在 SWE‑Bench Pro 上夺走编程王座;4 月 24 日,OpenAI 用 GPT‑5.5 在 Terminal‑Bench 等大多数基准上全面反击,且定价翻倍、科研炸裂。
2026 年的 AI 竞赛早已不是单一模型强弱的较量。OpenAI 在 GPT‑5.5 叙事中反复强调“探索全新的电脑办公方式”——一个能自主规划、调用多种工具、在浏览器与本地软件间灵活切换的通用 Agent。跑分是前菜,Agent 化办公才是主战场。谁先定义“AI 如何替人干活”,谁就定义下一代电脑使用界面。
8 天一个来回,这一节奏只会更快。
参考资料: