找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1094

积分

0

好友

158

主题
发表于 3 天前 | 查看: 6| 回复: 0

今天凌晨,OpenAI 正式发布了 GPT-5.2,作为对 Gemini 3 Pro 的强力回应。

然而,单纯用“更聪明”来形容一个大模型的迭代已经显得乏味。纵观 GPT-5.2 的更新,其最引人注目的突破在于,它开始真正理解并掌握了“工作的节奏”。

这是什么概念?以往的模型有时像缺乏经验的执行者,思维迅捷但缺乏章法。当你要求它撰写一份方案时,它可能快速生成大量文本,看似内容丰富,实则逻辑跳跃、格式混乱,最终仍需人工花费大量时间进行梳理和修正。

GPT-5.2 则呈现出不同的工作模式。当你交付一项任务时,它会先评估指令的清晰度和结构的合理性,然后逐步推进。过程中如发现错误或矛盾,它会进行自我检查并暂停,最终完成时还会附上总结或建议注释。

这种提升不仅仅是主观感受。OpenAI 此次专门采用了其数月前推出的 GDPval(广义领域性能评估)体系来量化测试。该体系专注于评估大模型在“真实知识工作任务”中的表现。

结果令人印象深刻:
GPT-5.2 Pro 在复杂任务中的胜率达到 74.1%,即便是 GPT-5.2 Thinking 版本也高达 70.9%。相比之下,人类专业人士在同一任务上的平均完成度仅为 38.8%。

这些测试任务并非儿戏,其难度达到了投资银行实习生的水准。例如:“为一家财富500强公司制作一份格式规范、引用完整的三表模型”,或“为一项私有化交易构建杠杆收购的 Excel 模型”。在此类高难度测试中,GPT-5.2 Thinking 的平均得分从 59.1% 提升至 68.4%,较上一代 GPT-5.1 高出 9.3 个百分点。

以下是几个具体的工作场景案例:

案例1:人力资源规划模型
指令:创建一个包含编制、招聘、预算和流失率的人力资源规划模型,需按工程、市场、法务、销售部门进行细分。
以往模型可能只会输出理论描述或一个简单的表格框架。
GPT-5.2 则直接生成了一个功能完善的 Excel 模型,细化到了各部门人员数量、未来六个月的招聘计划、离职预测曲线以及预算弹性分析,并额外提供了一个“参数变动对预算影响”的联动分析面板,其专业程度堪比人力资源系统中的规划模块。

案例2:股权瀑布图分析
指令:帮我制作一张股权瀑布图,用于评估C轮融资前创始人与其投资人的回报分配。
过去的模型常常难以准确理解“清算优先权”、“是否参与分配”、“转换价格”等专业概念,导致计算错误。
GPT-5.2 这次不仅完整演绎了整个瀑布图的分配逻辑,还纳入了种子轮、A轮、B轮等各轮次的优先权约束条件。关键是生成的表格公式清晰、逻辑严谨且可审计,作为投行分析师,甚至可以直接用于汇报。

案例3:项目进展汇报PPT
指令:假设你是英国一家AI初创公司的项目经理,客户是牛津郡的一家自行车修理店。请为10月份准备一份正式的项目进展汇报 PowerPoint,需包含支出情况、项目日志、风险清单、当前工作重点以及审计问答页。
这类综合性任务通常令人望而生畏。
GPT-5.2 的处理方式是,先解析指令中提及的Excel预算表、风险登记表和Word日志文档,然后将其整合、拆解为一份结构清晰的9页PPT。每页内容布局合理,图表、目录、引用和页码均正确对应,甚至连“项目处于第二个月但上月未要求报告”这样的细节它也自行补充完善。

从以上案例可以看出,GPT-5.2 的进化重点已从单纯的“快速生成”转向了“协同效率”。当它与用户一同工作时,其节奏感更强,不再成为工作流中的短板。这意味着用户在实际操作中能显著节省时间。OpenAI 表示,普通企业用户每日可节省40至60分钟,重度用户每周节省时间可超过10小时。

传统基准测试表现

除了上述工作流优化,GPT-5.2在传统技术榜单上也取得了全面进步:
无论是在软件工程类任务(SWE-bench Pro 从 50.8% 提升至 55.6%,Verified 从 76.3% 提升至 80.0%),抽象推理能力(ARC-AGI-2 从 17.6% 跃升至 52.9%,增长近两倍),还是数学竞赛(HMMT 从 96.3% 提升至 99.4%,近乎满分)方面,均有显著提升。

幻觉控制取得实质性进展

“降低幻觉”虽是大模型发布会的常见口号,但 GPT-5.2 此次交出了扎实的成绩单。OpenAI 引入了一个名为 FoMo(基础模型幻觉基准)的新评估框架,专门针对模型容易产生“伪知识”回答的场景进行测试。
结果显示,GPT-5.2 的幻觉率已降至 6.2%,相比 GPT-5.1 的 8.8%,下降了接近30%。

长上下文能力成为生产力工具

GPT-5.2 的长上下文能力从营销概念转化为切实的生产力提升。GPT-5.2 Thinking 的上下文窗口达到 400,000 token,单次最大输出为 128,000 token。
关键在于,此处的“长上下文”强调模型在超长文本范围内持续保持推理与指代一致性的能力。
OpenAI MRCRv2 评测中,研究团队设计了苛刻的任务:将多个完全相同的问题(称为“针”)插入极长的对话记录或文档(称为“草堆”)中,测试模型能否准确识别并关联到特定的“针”及其上下文轮次。
在4针测试中,GPT-5.2 Thinking 在长达 256k token 的范围内,准确率接近100%。而 GPT-5.1 在超过 64k token 后性能开始显著下降,至256k时匹配率几乎腰斩。
即使在更严苛的8针测试版本中,GPT-5.2 的表现依然稳定可靠。

图像理解能力显著增强

ScreenSpot-Pro 测试(专门评估模型对软件界面等复杂截图的理解能力)中,GPT-5.2 的准确率达到 86.3%,较 GPT-5.1 的 64.2% 高出22个百分点。
在更贴近实际的应用中,例如识别一张清晰度不高的PC主板照片,GPT-5.2 不仅能识别出CPU插槽、内存插槽、VGA、HDMI等接口,还能较为精确地标注出它们的边界框。而 GPT-5.1 在此类任务上仍处于“模糊识别”阶段。

产品线划分与定价

在 ChatGPT 应用中,GPT-5.2 细分为三个版本:

  • Instant:响应速度快,适合信息查询、翻译、基础写作等任务。
  • Thinking:侧重于复杂逻辑与多步骤任务,适合编程、文档分析、数学计算等场景。
  • Pro:当前最强的版本,适合处理复杂的Agent多轮任务、高级决策及跨文件分析等。

GPT-5.2 Pro 与 Thinking 版本还支持一个全新的 xhigh 推理强度档位,专为对输出质量要求极高的任务设计(如撰写白皮书、分析科研数据、生成复杂图表脚本等),目前该档位仅限API调用。

伴随着能力的提升,GPT-5.2 的 API 定价也相应上调,输入输出 token 的成本较 5.1 版本上涨约 40% 至 70%。然而,OpenAI 同时指出,由于 GPT-5.2 的 token 利用率大幅提升,完成相同质量的任务实际所需的 token 数量更少,因此综合成本可能反而有所下降。例如,生成一篇千字技术文档,GPT-5.2 可能仅需 1300 个输出 token 就能达到比 GPT-5.1 使用 2000 个 token 更精确、更清晰的效果。

至于用户广泛期待的“更高自由度模式”,Sam Altman 表示已提上日程,预计将很快推出。

目前,我们已开始对 GPT-5.2 进行实际测试,后续将带来更深入的解读与分析。不过,在发布后凌晨的社交媒体上,也已经出现了一些用户的实测反馈...

(网友实测截图:包含一些模型输出存在错误或逻辑问题的示例)




上一篇:Python轻量级本地文件搜索库Whose使用指南与场景解析
下一篇:网易给我开了 SSP offer,这个价格太有说服力了。
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 19:40 , Processed in 0.113038 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表