找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2829

积分

0

好友

376

主题
发表于 16 小时前 | 查看: 2| 回复: 0

AI圈在新年初就打响了双响炮——Anthropic刚刚发布了Claude Opus 4.6,OpenAI也紧随其后,推出了GPT-5.3-Codex。后者已经在Codex应用里上线。这两个重磅模型的同步登场,让我们不得不立刻审视它们在各项基准测试中的表现,探讨其强化了哪些能力,以及除了模型本身,这次更新还带来了哪些值得关注的生态变化。

基准测试表现速览

Anthropic这次为Opus系列模型首次引入了100万tokens的上下文窗口。在MRCRv2(大海捞针)测试中,其表现相比Sonnet 4.5提升了57个百分点,这巨大的记忆能力提升,让人忍不住想立刻在相关人工智能应用场景中体验一番。

除了记忆能力,Opus 4.6在GDPval-AA(一项涵盖44个不同岗位知识工作任务的测评)上的得分也超越了GPT-5.2超过200分,预示着它在多任务协作工具中的潜力将进一步释放。

Claude Opus 4.6与竞品在多任务基准测试中的表现对比

另一方面,新发布的GPT-5.3-Codex定位为编程模型,它融合了GPT-5.2-Codex的编码能力和GPT-5.2的推理与专业知识,官方称其速度提升了25%。更令人印象深刻的是,它在OSWorld-Verified(视觉桌面操作)基准上的表现,相比前代提升了近30个百分点,这个进步幅度相当显著。

GPT-5.3-Codex、GPT-5.2-Codex与GPT-5.2性能对比

仔细对比两家官方放出的数据表格,会发现它们直接重合的数据集只有一个——Terminal-Bench 2.0(在终端命令行中进行编程的测试)。仅看这一项,GPT-5.3-Codex以高出约12个百分点的优势,表现优于Claude Opus 4.6。

不过,其他展示的数据不能简单地进行横向对比。例如,在SWE-Bench(智能体编程)数据集上,OpenAI使用的是包含了四种语言的Pro版本,而Claude Opus 4.6测评的SWE-Bench Verified只测试Python。同样,OpenAI测试的OSWorld-Verified相比Claude测试的OSWorld,由于修复了300多个数据问题,其结果也更具可信度。

我们还是分别看看它们各自突出的单项能力。

Claude Opus 4.6在高难度的Agent搜索(DeepSearchQA / BrowseComp)上,单智能体表现比GPT-5.2 Pro高出6个百分点。在多学科推理(Humanity‘s Last Exam / ARC AGI 2)测试中,在工具配置拉满的情况下,也比GPT-5.2 Pro高出3个百分点。

Claude Opus 4.6在Agent搜索任务上的表现

Claude Opus 4.6在多学科推理任务上的表现

GPT-5.3-Codex则有一个指标高得离谱——OSWorld-Verified(视觉桌面操作)。简单来说,这项测试要求AI根据屏幕截图完成各种电脑任务,人类基准是72%。前代模型GPT-5.2-Codex得分38.2%,GPT-5.2得分37.9%。而融合了两者优势的GPT-5.3-Codex,直接将分数干到了64.7%。相比之下,它在SWE-Bench Pro(智能体编程)、Cybersecurity Capture The Flag Challenges(智能体安全攻防)和SWE-Lancer IC Diamond(修bug挑战)等其他项目上5到6个百分点的提升,都显得像是常规操作了。

GPT-5.3-Codex在OSWorld-Verified基准测试中表现突出

应用与生态更新

看完成绩单,再来看看实际应用案例。有趣的是,Anthropic这次并没有放出Claude Opus 4.6的具体用例演示,而是选择更新了自家产品线。

Claude Code增加了“智能体团队”(agent teams)新功能,允许多个Agent并行工作。这非常适合像大规模代码审查这类可以被拆分成许多独立子任务的场景。

Claude in Excel也迎来了更新,新增了规划模式,并且能够自动为杂乱的非结构化数据匹配合适的表格结构。

此外,还为PPT推出了研究预览功能。Claude现在能够识别公司品牌的PPT模板,确保布局、字体、颜色等风格不变。它可以针对单张幻灯片简化文本、添加图表,也能够一次性生成多达10张幻灯片供用户后续微调。

Claude Opus 4.6在PPT分析中的应用案例

OpenAI则把更多精力放在了成果展示上。他们发布了两款使用GPT-5.3-Codex构建的新游戏,但这次没有像发布GPT-5.2-Codex时那样公布完整的提示词。

他们还展示了一个略显“蠢萌”的网页案例,理由是GPT-5.3-Codex在制作价格页面时,会把年费展示成折扣后的月费,而不是总金额。这个细节让人不禁会心一笑。

API、定价与安全

在API和定价方面,Anthropic为API新增了“自适应思考”(Adaptive thinking)功能,由Claude自行判断何时开启深度思考模式。

同时还提供了四档“努力程度”(Effort)可选:低(low)、中(medium)、高(high,默认)和最大(max)。

另一个Beta功能是上下文自动摘要:当长时间对话或AI Agent任务接近上下文长度上限时,系统会自动将部分上下文压缩成摘要,并用摘要替换原始内容,以节省token。具体定价对比如下:

Claude Opus 4.6 API定价对比

GPT-5.3-Codex目前尚未提供独立API,但已经在Codex App、CLI、IDE插件及网页版中全面上线。这种“上线即全量”的风格,倒是有点不太像OpenAI以往的节奏。顺带一提,API形式的GPT-4o在一周后也将停止服务,这波更新确实带走了不少“时代的眼泪”。

GPT-5.3-Codex在开发平台中的模型选择界面

最后,两家公司都花了相当篇幅讨论安全问题。

Anthropic首先用一张图表表明,此次性能升级并未影响模型的安全性。他们近期主要做了两件事:

  1. 探索模型可解释性的新方法,目标是让研究人员能“看见”模型做出特定回答的内部原因。这有助于在标准测试未能覆盖的边缘场景中,提前发现诸如模型突然变得极具误导性等风险。
  2. 在模型表现出色的领域(如网络安全)加强了防护。他们发现Opus 4.6在网络安全方面能力更强(既能修bug也可能被用于攻击),因此部署了六个新的网络安全探针,用于检测模型是否输出了可能被滥用的内容。

Anthropic各版本模型的安全性评分对比

OpenAI在安全方面也下了苦功。他们现在为开源项目提供免费的安全体验,并将一些已知的恶意话术套路整理成识别规则。当用户提问与这些套路相似时,模型会自动降低回答的详细程度,以规避风险。

结语

这次模型更新后,一个明显的感受是大家对模型的期望值被拉高了。以前模型更新,我们还会兴致勃勃地测试其文本、代码、乃至3D生成的基础表现。但现在,随着Claude Code、Copilot等智能开发工具的接连冲击,我们对模型能力的评估似乎进入了一种“薛定谔的猫”状态——过于简单的测试显得索然无味,而利用现有工具链组合,我们似乎也能触及相近的能力上限;过于复杂的任务,则更倾向于将其以Agent的形式,嵌入到已有的工作流中进行长期、综合的评估。

或许在未来,大模型的版本迭代会成为一种更日常的节奏,盛大的发布会将不再是标配。竞争的焦点,可能会转向更实用、更集成的Agent形态与应用生态。作为一个使用者,最大的愿望或许是:别只跟“整理桌面”较劲了,我的桌面都快被清理得没文件了。

对于这次Claude Opus 4.6和GPT-5.3 Codex的更新,你怎么看?欢迎在云栈社区开发者广场分享你的使用体验和看法。




上一篇:QT QSlider点击跳转与拖动事件冲突:从事件过滤器到继承重写的解决方案
下一篇:构建高效AI工作流:告别零散提问,实现自动化编程与评审
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-7 21:38 , Processed in 0.297797 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表