今天凌晨,OpenAI 正式发布了 GPT-5.2,作为对 Gemini 3 Pro 的强力回应。
然而,单纯用“更聪明”来形容一个大模型的迭代已经显得乏味。纵观 GPT-5.2 的更新,其最引人注目的突破在于,它开始真正理解并掌握了“工作的节奏”。
这是什么概念?以往的模型有时像缺乏经验的执行者,思维迅捷但缺乏章法。当你要求它撰写一份方案时,它可能快速生成大量文本,看似内容丰富,实则逻辑跳跃、格式混乱,最终仍需人工花费大量时间进行梳理和修正。
GPT-5.2 则呈现出不同的工作模式。当你交付一项任务时,它会先评估指令的清晰度和结构的合理性,然后逐步推进。过程中如发现错误或矛盾,它会进行自我检查并暂停,最终完成时还会附上总结或建议注释。
这种提升不仅仅是主观感受。OpenAI 此次专门采用了其数月前推出的 GDPval(广义领域性能评估)体系来量化测试。该体系专注于评估大模型在“真实知识工作任务”中的表现。
结果令人印象深刻:
GPT-5.2 Pro 在复杂任务中的胜率达到 74.1%,即便是 GPT-5.2 Thinking 版本也高达 70.9%。相比之下,人类专业人士在同一任务上的平均完成度仅为 38.8%。
这些测试任务并非儿戏,其难度达到了投资银行实习生的水准。例如:“为一家财富500强公司制作一份格式规范、引用完整的三表模型”,或“为一项私有化交易构建杠杆收购的 Excel 模型”。在此类高难度测试中,GPT-5.2 Thinking 的平均得分从 59.1% 提升至 68.4%,较上一代 GPT-5.1 高出 9.3 个百分点。
以下是几个具体的工作场景案例:
案例1:人力资源规划模型
指令:创建一个包含编制、招聘、预算和流失率的人力资源规划模型,需按工程、市场、法务、销售部门进行细分。
以往模型可能只会输出理论描述或一个简单的表格框架。
GPT-5.2 则直接生成了一个功能完善的 Excel 模型,细化到了各部门人员数量、未来六个月的招聘计划、离职预测曲线以及预算弹性分析,并额外提供了一个“参数变动对预算影响”的联动分析面板,其专业程度堪比人力资源系统中的规划模块。
案例2:股权瀑布图分析
指令:帮我制作一张股权瀑布图,用于评估C轮融资前创始人与其投资人的回报分配。
过去的模型常常难以准确理解“清算优先权”、“是否参与分配”、“转换价格”等专业概念,导致计算错误。
GPT-5.2 这次不仅完整演绎了整个瀑布图的分配逻辑,还纳入了种子轮、A轮、B轮等各轮次的优先权约束条件。关键是生成的表格公式清晰、逻辑严谨且可审计,作为投行分析师,甚至可以直接用于汇报。
案例3:项目进展汇报PPT
指令:假设你是英国一家AI初创公司的项目经理,客户是牛津郡的一家自行车修理店。请为10月份准备一份正式的项目进展汇报 PowerPoint,需包含支出情况、项目日志、风险清单、当前工作重点以及审计问答页。
这类综合性任务通常令人望而生畏。
GPT-5.2 的处理方式是,先解析指令中提及的Excel预算表、风险登记表和Word日志文档,然后将其整合、拆解为一份结构清晰的9页PPT。每页内容布局合理,图表、目录、引用和页码均正确对应,甚至连“项目处于第二个月但上月未要求报告”这样的细节它也自行补充完善。
从以上案例可以看出,GPT-5.2 的进化重点已从单纯的“快速生成”转向了“协同效率”。当它与用户一同工作时,其节奏感更强,不再成为工作流中的短板。这意味着用户在实际操作中能显著节省时间。OpenAI 表示,普通企业用户每日可节省40至60分钟,重度用户每周节省时间可超过10小时。
传统基准测试表现
除了上述工作流优化,GPT-5.2在传统技术榜单上也取得了全面进步:
无论是在软件工程类任务(SWE-bench Pro 从 50.8% 提升至 55.6%,Verified 从 76.3% 提升至 80.0%),抽象推理能力(ARC-AGI-2 从 17.6% 跃升至 52.9%,增长近两倍),还是数学竞赛(HMMT 从 96.3% 提升至 99.4%,近乎满分)方面,均有显著提升。
幻觉控制取得实质性进展
“降低幻觉”虽是大模型发布会的常见口号,但 GPT-5.2 此次交出了扎实的成绩单。OpenAI 引入了一个名为 FoMo(基础模型幻觉基准)的新评估框架,专门针对模型容易产生“伪知识”回答的场景进行测试。
结果显示,GPT-5.2 的幻觉率已降至 6.2%,相比 GPT-5.1 的 8.8%,下降了接近30%。
长上下文能力成为生产力工具
GPT-5.2 的长上下文能力从营销概念转化为切实的生产力提升。GPT-5.2 Thinking 的上下文窗口达到 400,000 token,单次最大输出为 128,000 token。
关键在于,此处的“长上下文”强调模型在超长文本范围内持续保持推理与指代一致性的能力。
在 OpenAI MRCRv2 评测中,研究团队设计了苛刻的任务:将多个完全相同的问题(称为“针”)插入极长的对话记录或文档(称为“草堆”)中,测试模型能否准确识别并关联到特定的“针”及其上下文轮次。
在4针测试中,GPT-5.2 Thinking 在长达 256k token 的范围内,准确率接近100%。而 GPT-5.1 在超过 64k token 后性能开始显著下降,至256k时匹配率几乎腰斩。
即使在更严苛的8针测试版本中,GPT-5.2 的表现依然稳定可靠。
图像理解能力显著增强
在 ScreenSpot-Pro 测试(专门评估模型对软件界面等复杂截图的理解能力)中,GPT-5.2 的准确率达到 86.3%,较 GPT-5.1 的 64.2% 高出22个百分点。
在更贴近实际的应用中,例如识别一张清晰度不高的PC主板照片,GPT-5.2 不仅能识别出CPU插槽、内存插槽、VGA、HDMI等接口,还能较为精确地标注出它们的边界框。而 GPT-5.1 在此类任务上仍处于“模糊识别”阶段。
产品线划分与定价
在 ChatGPT 应用中,GPT-5.2 细分为三个版本:
- Instant:响应速度快,适合信息查询、翻译、基础写作等任务。
- Thinking:侧重于复杂逻辑与多步骤任务,适合编程、文档分析、数学计算等场景。
- Pro:当前最强的版本,适合处理复杂的Agent多轮任务、高级决策及跨文件分析等。
GPT-5.2 Pro 与 Thinking 版本还支持一个全新的 xhigh 推理强度档位,专为对输出质量要求极高的任务设计(如撰写白皮书、分析科研数据、生成复杂图表脚本等),目前该档位仅限API调用。
伴随着能力的提升,GPT-5.2 的 API 定价也相应上调,输入输出 token 的成本较 5.1 版本上涨约 40% 至 70%。然而,OpenAI 同时指出,由于 GPT-5.2 的 token 利用率大幅提升,完成相同质量的任务实际所需的 token 数量更少,因此综合成本可能反而有所下降。例如,生成一篇千字技术文档,GPT-5.2 可能仅需 1300 个输出 token 就能达到比 GPT-5.1 使用 2000 个 token 更精确、更清晰的效果。
至于用户广泛期待的“更高自由度模式”,Sam Altman 表示已提上日程,预计将很快推出。
目前,我们已开始对 GPT-5.2 进行实际测试,后续将带来更深入的解读与分析。不过,在发布后凌晨的社交媒体上,也已经出现了一些用户的实测反馈...
(网友实测截图:包含一些模型输出存在错误或逻辑问题的示例)