找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5128

积分

0

好友

704

主题
发表于 2 小时前 | 查看: 3| 回复: 0

云栈社区导读:就在刚刚,OpenAI 正式发布了 GPT-5.5——一款被称为「土豆」(Spud)的全新旗舰模型,在多个基准测试中全面超越 Claude Opus 4.7 与 Gemini 3.1 Pro,重新坐回王座。

硅谷今夜未眠。GPT-5.5 以一种全新级别的智能亮相,它不再是单纯的大语言模型,而是真正进化为 Agent 时代的「原生大脑」——能理解复杂目标、调用工具、检查结果并自主完成多步骤任务。
GPT-5.5 发布海报

OpenAI 官方推文这样写道:
“介绍 GPT-5.5——一种全新的智能类别,专为实际工作及驱动智能体而构建。它能理解复杂目标、使用工具、检查工作成果,并完成更多任务。这标志着一种完成计算机工作的新方式。现已在 ChatGPT 和 Codex 中可用。”
OpenAI 官方发布 GPT-5.5 推文截图

民间社群的反应来得更直接:
Dan Shipper 推文称 GPT-5.5 是巨兽
网友惊呼 GPT-5.5 全面碾压 Opus 4.7

全榜第一,代际碾压

GPT-5.5 在编程、推理、数学和 Agent 任务上均拿下榜首,Opus 4.7 与 Gemini 3.1 Pro 被全面压制。同一输出 token 量下,GPT-5.5 在 Artificial Analysis 智能指数上全球最高;在 ARC-AGI-2 上也刷新了 SOTA。
主要模型基准测试对比
ARC-AGI-2 排行榜
Artificial Analysis 智能指数

Sam Altman 难掩兴奋:“它既聪明又快速;每 token 的速度与 5.4 版本相当,而每个任务使用的 token 数量显著减少。根据我的经验,它‘知道该做什么’。”
Sam Altman 推文

OpenAI 总裁 Greg Brockman 则称:“这朝着一种全新的计算机工作方式迈出了真正的一步。”
Greg Brockman 推文

当天,GPT-5.5 已在 ChatGPT 和 Codex 中正式上线。
OpenAI 在市场中的定位示意图

编程新王登场,Opus 4.7 跌落神坛

在核心编程领域,GPT-5.5 打了一场漂亮的翻身仗。OpenAI 称其为目前最强的 Agent 编程模型。
EjaaZ 推文:OpenAI 把 Claude 拉下神坛
AI 模型输出 token 与智能指数关系

Terminal‑Bench 2.0 要求模型在终端环境中自主规划、调用工具、编写脚本并迭代纠错。GPT-5.5 取得 82.7%,比 Claude Opus 4.7 的 69.4% 高出超过 13 个百分点。OpenAI 内部的 Expert‑SWE(人类预计 20 小时的长周期编程任务)上,GPT-5.5 得分 73.1%,同样超越 GPT‑5.4 的 68.5%。
Terminal‑Bench 2.0 与 Expert‑SWE 得分曲线

在 SWE‑Bench Pro 中,GPT-5.5 得分 58.6%,逊于 Opus 4.7 的 64.3%;但 OpenAI 在数据旁标注星号,指出“Anthropic 报告称在部分问题子集上存在过拟合迹象”——换句话说,Opus 4.7 的好成绩可能源于背题。
Codex 研究员质疑 SWE‑Bench 代表性

更关键的是,三项评估中 GPT‑5.5 均使用了更少的 token,但全面赶超 GPT‑5.4。在 Codex 中,这一优势更为明显:它能完成端到端的编程流水线,从实现、重构到调试、测试和验证一气呵成。

举几个实打实的例子:

  • 太空任务可视化:给 GPT‑5.5 一张阿尔忒弥斯 II 任务截图,要求用 WebGL 和 Vite 实现可交互的 3D 轨道模拟器,数据取自 NASA/JPL Horizons 真实矢量。模型从零搭建,鼠标拖拽即可转动视角,猎户座飞船、月球、太阳相对位置准确。
  • 坦克打飞碟:要求用 Three.js 做一款低多边形 UFO 射击游戏,玩家控制坦克击落飞碟。GPT‑5.5 按清单交付完整代码,生成可玩的 3D 游戏。
  • 3D 地牢竞技场:Codex 包办游戏架构、TypeScript/Three.js 实现、战斗系统,并调用 OpenAI API 生成角色对话,配合第三方素材制作出可打怪的游戏。

早期测试者评价:GPT‑5.5 更擅长理解系统全局形态,能精准判断问题根源、修复位置,以及代码库中可能受影响的其他部分。

85% OpenAI 员工在用,这才是真正干活的 AI

编程之外,GPT‑5.5 在“知识型工作”上的表现同样亮眼。OpenAI 将其定位为“面向真实工作的全新智能”。
GPT‑5.5 操作浏览器解魔方
GPT‑5.5 自动处理 GitHub/Slack 任务
GPT‑5.5 生成 Q3 财务 PPT

  • GDPval(评估 44 个职业的知识工作水平):GPT‑5.5 84.9%,Opus 4.7 80.3%,Gemini 3.1 Pro 仅 67.3%。
  • OSWorld‑Verified(模型在真实电脑环境中的操作能力):GPT‑5.5 78.7%,与 Opus 4.7 的 78.0% 几乎持平。
  • Tau2‑bench Telecom(复杂客服工作流):GPT‑5.5 在未微调提示词的情况下达到 98.0%。
    GDPval 对比柱状图
    OSWorld‑Verified 和 Tau2‑bench 曲线

OpenAI 内部已经有超过 85% 的员工每周跨部门使用 Codex。公关部用 GPT‑5.5 分析六个月演讲邀约数据,搭建评分与风险框架,低风险请求自动走 Slack Agent 处理;财务部审查了 24,771 份 K‑1 税表(71,637 页),比去年提前两周完成;市场团队每周业务报告自动生成,每周节省 5–10 小时。

Codex 中,GPT‑5.5 可直接与网页应用交互:点击页面、测试流程、截取屏幕,并根据所见内容不断迭代。下面是一个测试客户入职流程的例子。
自动测试客户入职流程

它还能生成更高质量的电子表格、PPT 和文档。例如财务建模 demo 中,Codex 输出完整的瀑布分析工作簿。
Codex 完成财务瀑布分析

在计算机使用维度上,Codex 识别屏幕、点击、打字、导航,甚至跨工具流转上下文信息的能力都进一步增强。
Codex 记录 OpenAI 四月产品发布

Noam Brown 研究员感叹:“有了 GPT‑5.5,我成为了一名比以往任何时候都更高效的独立贡献者。我现在可以像专业人士一样编写 CUDA 内核,并依靠它来运行我的研究实验。”
Noam Brown 推文附性能对比图

颠覆科研:证明拉姆齐数定理

GPT‑5.5 还协助发现了一个关于拉姆齐数的新证明,并在 Lean 语言中完成验证。拉姆齐数是组合数学的核心课题,新结果极其罕见。这次不是写代码、做解释,而是完成了一个有价值的数学论证。
数学论文摘要:拉姆齐数比值证明
论文地址:https://cdn.openai.com/pdf/6dc7175d-d9e7-4b8d-96b8-48fe5798cd5b/Ramsey.pdf

在考验多阶段科学数据分析的 GeneBench 中,GPT‑5.5 得分 25.0%(GPT‑5.4 为 19.0%);基于真实生物信息学的 BixBench 中,GPT‑5.5 以 80.5% 位列已公开分数的模型之首。
GeneBench 曲线
BixBench 分数

FrontierMath 最难的 Tier 4 题库(由陶哲轩等顶尖数学家策划,难度接近未发表研究):GPT‑5.5 35.4%,GPT‑5.4 27.1%,Opus 4.7 仅 22.9%,差距超 12 个百分点。对比 Tier 1‑3 的 8 个百分点差距,越到数学前沿,优势越悬殊。

Jackson 基因医学实验室免疫学教授 Derya Unutmaz 用 GPT‑5.5 Pro 分析含 62 个样本、近 28,000 基因的表达数据集,模型出具详尽报告,深挖关键问题与洞察——若由人类团队完成,需数个月。
Derya Unutmaz 推文

波兹南·密茨凯维奇大学数学助教 Bartosz Naskręcki 在 Codex 中仅用 11 分钟,便从单一提示词构建了一个代数几何应用,可视化二次曲面交集,并将曲线转换为 Weierstrass 模型。
代数几何可视化截图

从编程到知识工作再到科研,GPT‑5.5 不是又一次小版本迭代,而是一次基于全新基座模型的整体性跃升。

全方位击败 Opus 4.7,一张图足矣

综合评估中,GPT‑5.5 在编程、专业任务、计算机视觉与工具使用等维度全面领先。仅看一张图就够了。
GPT-5.5 综合评估表格

Vending‑Bench 模拟商业决策,Opus 4.7 经常对供应商撒谎、坑害顾客,表现与 4.6 类似;GPT‑5.5 手段正派,同时照样赢下比赛。
Vending‑Bench Arena 资金余额对比

Sam Altman 也玩起了梗:“不要转发这条,不要转发这条……”随即补充:“啊,去他的吧,生活模仿艺术。”
Sam Altman 玩梗推文

定价翻倍:更强,但也更贵

GPT‑5.5 的 API 定价为每百万输入 token 5 美元,输出 30 美元。GPT‑5.4 则分别为 2.5 美元和 15 美元,整整翻了一倍。GPT‑5.5 Pro 更贵:输入 30 美元,输出 180 美元;对比 Opus 4.7 的 $5/$25,输入持平,输出贵 20%。
NVIDIA 与 OpenAI 合作推文

OpenAI 强调 token 效率提升——同样的 Codex 任务,GPT‑5.5 使用的 token 明显更少。但算一笔账:若团队每月在 GPT‑5.4 上花费 10 万美元,即使 token 用量减少 30%,迁移到 GPT‑5.5 后月账单仍可能达到约 14 万美元。GPT‑5.5 是一款“为更强智能支付溢价”的产品,而 GPT‑5.4 将继续作为性价比之选存在。
OpenClaw 已接入 GPT-5.5

8 天,一个时代的缩影

回顾过去 8 天:4 月 16 日,Anthropic 以 Opus 4.7 在 SWE‑Bench Pro 上夺走编程王座;4 月 24 日,OpenAI 用 GPT‑5.5 在 Terminal‑Bench 等大多数基准上全面反击,且定价翻倍、科研炸裂。

2026 年的 AI 竞赛早已不是单一模型强弱的较量。OpenAI 在 GPT‑5.5 叙事中反复强调“探索全新的电脑办公方式”——一个能自主规划、调用多种工具、在浏览器与本地软件间灵活切换的通用 Agent。跑分是前菜,Agent 化办公才是主战场。谁先定义“AI 如何替人干活”,谁就定义下一代电脑使用界面。

8 天一个来回,这一节奏只会更快。

参考资料:




上一篇:阿里大模型算法一面复盘:GRPO深度穿透,技术选型与信用分配
下一篇:Linux 7.0 前瞻:提前适配未来旗舰,XFS 自修复终止停机
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-27 23:25 , Processed in 0.806017 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表