云栈社区»论坛 › 开发者广场「Dev Plaza」 › GPT-5.5正式发布：全榜碾压Claude Opus 4.7，编程科研重回巅峰 ...

发回帖发新帖

5738 积分	0 好友	750 主题

发消息

GPT-5.5正式发布：全榜碾压Claude Opus 4.7，编程科研重回巅峰

发表于 2026-4-27 21:20:38 | 查看: 165| 回复: 0

云栈社区导读：就在刚刚，OpenAI 正式发布了 GPT-5.5——一款被称为「土豆」（Spud）的全新旗舰模型，在多个基准测试中全面超越 Claude Opus 4.7 与 Gemini 3.1 Pro，重新坐回王座。

硅谷今夜未眠。GPT-5.5 以一种全新级别的智能亮相，它不再是单纯的大语言模型，而是真正进化为 Agent 时代的「原生大脑」——能理解复杂目标、调用工具、检查结果并自主完成多步骤任务。
GPT-5.5 发布海报

OpenAI 官方推文这样写道：
“介绍 GPT-5.5——一种全新的智能类别，专为实际工作及驱动智能体而构建。它能理解复杂目标、使用工具、检查工作成果，并完成更多任务。这标志着一种完成计算机工作的新方式。现已在 ChatGPT 和 Codex 中可用。”
OpenAI 官方发布 GPT-5.5 推文截图

民间社群的反应来得更直接：
Dan Shipper 推文称 GPT-5.5 是巨兽
网友惊呼 GPT-5.5 全面碾压 Opus 4.7

全榜第一，代际碾压

GPT-5.5 在编程、推理、数学和 Agent 任务上均拿下榜首，Opus 4.7 与 Gemini 3.1 Pro 被全面压制。同一输出 token 量下，GPT-5.5 在 Artificial Analysis 智能指数上全球最高；在 ARC-AGI-2 上也刷新了 SOTA。
主要模型基准测试对比
ARC-AGI-2 排行榜

Sam Altman 难掩兴奋：“它既聪明又快速；每 token 的速度与 5.4 版本相当，而每个任务使用的 token 数量显著减少。根据我的经验，它‘知道该做什么’。”
Sam Altman 推文

OpenAI 总裁 Greg Brockman 则称：“这朝着一种全新的计算机工作方式迈出了真正的一步。”
Greg Brockman 推文

当天，GPT-5.5 已在 ChatGPT 和 Codex 中正式上线。
OpenAI 在市场中的定位示意图

编程新王登场，Opus 4.7 跌落神坛

在核心编程领域，GPT-5.5 打了一场漂亮的翻身仗。OpenAI 称其为目前最强的 Agent 编程模型。
EjaaZ 推文：OpenAI 把 Claude 拉下神坛
AI 模型输出 token 与智能指数关系

Terminal‑Bench 2.0 要求模型在终端环境中自主规划、调用工具、编写脚本并迭代纠错。GPT-5.5 取得 82.7%，比 Claude Opus 4.7 的 69.4% 高出超过 13 个百分点。OpenAI 内部的 Expert‑SWE（人类预计 20 小时的长周期编程任务）上，GPT-5.5 得分 73.1%，同样超越 GPT‑5.4 的 68.5%。
Terminal‑Bench 2.0 与 Expert‑SWE 得分曲线

在 SWE‑Bench Pro 中，GPT-5.5 得分 58.6%，逊于 Opus 4.7 的 64.3%；但 OpenAI 在数据旁标注星号，指出“Anthropic 报告称在部分问题子集上存在过拟合迹象”——换句话说，Opus 4.7 的好成绩可能源于背题。
Codex 研究员质疑 SWE‑Bench 代表性

更关键的是，三项评估中 GPT‑5.5 均使用了更少的 token，但全面赶超 GPT‑5.4。在 Codex 中，这一优势更为明显：它能完成端到端的编程流水线，从实现、重构到调试、测试和验证一气呵成。

举几个实打实的例子：

太空任务可视化：给 GPT‑5.5 一张阿尔忒弥斯 II 任务截图，要求用 WebGL 和 Vite 实现可交互的 3D 轨道模拟器，数据取自 NASA/JPL Horizons 真实矢量。模型从零搭建，鼠标拖拽即可转动视角，猎户座飞船、月球、太阳相对位置准确。
坦克打飞碟：要求用 Three.js 做一款低多边形 UFO 射击游戏，玩家控制坦克击落飞碟。GPT‑5.5 按清单交付完整代码，生成可玩的 3D 游戏。
3D 地牢竞技场：Codex 包办游戏架构、TypeScript/Three.js 实现、战斗系统，并调用 OpenAI API 生成角色对话，配合第三方素材制作出可打怪的游戏。

早期测试者评价：GPT‑5.5 更擅长理解系统全局形态，能精准判断问题根源、修复位置，以及代码库中可能受影响的其他部分。

85% OpenAI 员工在用，这才是真正干活的 AI

编程之外，GPT‑5.5 在“知识型工作”上的表现同样亮眼。OpenAI 将其定位为“面向真实工作的全新智能”。
GPT‑5.5 操作浏览器解魔方
GPT‑5.5 自动处理 GitHub/Slack 任务
GPT‑5.5 生成 Q3 财务 PPT

GDPval（评估 44 个职业的知识工作水平）：GPT‑5.5 84.9%，Opus 4.7 80.3%，Gemini 3.1 Pro 仅 67.3%。
OSWorld‑Verified（模型在真实电脑环境中的操作能力）：GPT‑5.5 78.7%，与 Opus 4.7 的 78.0% 几乎持平。
Tau2‑bench Telecom（复杂客服工作流）：GPT‑5.5 在未微调提示词的情况下达到 98.0%。

OpenAI 内部已经有超过 85% 的员工每周跨部门使用 Codex。公关部用 GPT‑5.5 分析六个月演讲邀约数据，搭建评分与风险框架，低风险请求自动走 Slack Agent 处理；财务部审查了 24,771 份 K‑1 税表（71,637 页），比去年提前两周完成；市场团队每周业务报告自动生成，每周节省 5–10 小时。

Codex 中，GPT‑5.5 可直接与网页应用交互：点击页面、测试流程、截取屏幕，并根据所见内容不断迭代。下面是一个测试客户入职流程的例子。
自动测试客户入职流程

它还能生成更高质量的电子表格、PPT 和文档。例如财务建模 demo 中，Codex 输出完整的瀑布分析工作簿。
Codex 完成财务瀑布分析

在计算机使用维度上，Codex 识别屏幕、点击、打字、导航，甚至跨工具流转上下文信息的能力都进一步增强。
Codex 记录 OpenAI 四月产品发布

Noam Brown 研究员感叹：“有了 GPT‑5.5，我成为了一名比以往任何时候都更高效的独立贡献者。我现在可以像专业人士一样编写 CUDA 内核，并依靠它来运行我的研究实验。”
Noam Brown 推文附性能对比图

颠覆科研：证明拉姆齐数定理

GPT‑5.5 还协助发现了一个关于拉姆齐数的新证明，并在 Lean 语言中完成验证。拉姆齐数是组合数学的核心课题，新结果极其罕见。这次不是写代码、做解释，而是完成了一个有价值的数学论证。
数学论文摘要：拉姆齐数比值证明
论文地址：https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

在考验多阶段科学数据分析的 GeneBench 中，GPT‑5.5 得分 25.0%（GPT‑5.4 为 19.0%）；基于真实生物信息学的 BixBench 中，GPT‑5.5 以 80.5% 位列已公开分数的模型之首。
GeneBench 曲线
BixBench 分数

FrontierMath 最难的 Tier 4 题库（由陶哲轩等顶尖数学家策划，难度接近未发表研究）：GPT‑5.5 35.4%，GPT‑5.4 27.1%，Opus 4.7 仅 22.9%，差距超 12 个百分点。对比 Tier 1‑3 的 8 个百分点差距，越到数学前沿，优势越悬殊。

Jackson 基因医学实验室免疫学教授 Derya Unutmaz 用 GPT‑5.5 Pro 分析含 62 个样本、近 28,000 基因的表达数据集，模型出具详尽报告，深挖关键问题与洞察——若由人类团队完成，需数个月。
Derya Unutmaz 推文

波兹南·密茨凯维奇大学数学助教 Bartosz Naskręcki 在 Codex 中仅用 11 分钟，便从单一提示词构建了一个代数几何应用，可视化二次曲面交集，并将曲线转换为 Weierstrass 模型。
代数几何可视化截图

从编程到知识工作再到科研，GPT‑5.5 不是又一次小版本迭代，而是一次基于全新基座模型的整体性跃升。

全方位击败 Opus 4.7，一张图足矣

综合评估中，GPT‑5.5 在编程、专业任务、计算机视觉与工具使用等维度全面领先。仅看一张图就够了。
GPT-5.5 综合评估表格

Vending‑Bench 模拟商业决策，Opus 4.7 经常对供应商撒谎、坑害顾客，表现与 4.6 类似；GPT‑5.5 手段正派，同时照样赢下比赛。
Vending‑Bench Arena 资金余额对比

Sam Altman 也玩起了梗：“不要转发这条，不要转发这条……”随即补充：“啊，去他的吧，生活模仿艺术。”
Sam Altman 玩梗推文

定价翻倍：更强，但也更贵

GPT‑5.5 的 API 定价为每百万输入 token 5 美元，输出 30 美元。GPT‑5.4 则分别为 2.5 美元和 15 美元，整整翻了一倍。GPT‑5.5 Pro 更贵：输入 30 美元，输出 180 美元；对比 Opus 4.7 的 $5/$25，输入持平，输出贵 20%。
NVIDIA 与 OpenAI 合作推文

OpenAI 强调 token 效率提升——同样的 Codex 任务，GPT‑5.5 使用的 token 明显更少。但算一笔账：若团队每月在 GPT‑5.4 上花费 10 万美元，即使 token 用量减少 30%，迁移到 GPT‑5.5 后月账单仍可能达到约 14 万美元。GPT‑5.5 是一款“为更强智能支付溢价”的产品，而 GPT‑5.4 将继续作为性价比之选存在。
OpenClaw 已接入 GPT-5.5

8 天，一个时代的缩影

回顾过去 8 天：4 月 16 日，Anthropic 以 Opus 4.7 在 SWE‑Bench Pro 上夺走编程王座；4 月 24 日，OpenAI 用 GPT‑5.5 在 Terminal‑Bench 等大多数基准上全面反击，且定价翻倍、科研炸裂。

2026 年的 AI 竞赛早已不是单一模型强弱的较量。OpenAI 在 GPT‑5.5 叙事中反复强调“探索全新的电脑办公方式”——一个能自主规划、调用多种工具、在浏览器与本地软件间灵活切换的通用 Agent。跑分是前菜，Agent 化办公才是主战场。谁先定义“AI 如何替人干活”，谁就定义下一代电脑使用界面。

8 天一个来回，这一节奏只会更快。

参考资料：

上一篇：阿里大模型算法一面复盘：GRPO深度穿透，技术选型与信用分配
下一篇：Linux 7.0 前瞻：提前适配未来旗舰，XFS 自修复终止停机

GPT-5．5, Claude Opus 4．7, AI智能体, 编程模型, 基准测试