
在2月6日凌晨,硅谷的AI领域迎来了戏剧性的“双响炮”。Anthropic毫无征兆地发布了Claude Opus 4.6模型,短短半小时后,OpenAI便紧跟着祭出了其最强编程智能体模型——GPT-5.3-Codex。两大顶级模型在深夜的“背靠背”发布,瞬间点燃了整个开发者广场的讨论热情,一场关于AI编程王座的争夺战已全面打响。
根据OpenAI官方发布的信息,GPT-5.3-Codex并非此前盛传的通用GPT-5.3,而是一个专门为Codex平台打造的高阶模型。它融合了GPT-5.2-Codex顶尖的编程能力与GPT-5.2卓越的推理及专业知识,并且在效率上实现了显著提升:完成相同任务所需的Token不到5.2-Codex的一半,整体速度提升超过25%。

性能基准:全面领先的编码能力
GPT-5.3-Codex的实力通过一系列严格的基准测试得到了验证。
1. 软件工程新SOTA
在评估现实世界软件工程修复能力的SWE-Bench Pro评测中,GPT-5.3-Codex取得了56.8%的成绩,创下了行业新高。与仅测试Python的SWE-bench Verified不同,SWE-Bench Pro涵盖四种编程语言,更具挑战性和行业相关性。

2. 终端操作能力显著增强
在衡量编程智能体终端(CLI)技能的Terminal-Bench 2.0测试中,GPT-5.3-Codex的表现达到了77.3%,远超此前的SOTA模型。

3. 计算机操作能力飞跃
OSWorld是一个要求智能体在可视化桌面环境中完成任务的基准测试。在OSWorld-Verified中,GPT-5.3-Codex展现出远超之前模型的计算机操作能力,准确率达到64.7%,而GPT-5.2-Codex仅为38.2%。

这些成绩表明,GPT-5.3-Codex不仅单项能力突出,更是向能够处理全方位现实世界技术工作的单一通用智能体迈出了关键一步。
实际应用:从游戏开发到专业文档
为了展示其长程任务执行和复杂创造能力,OpenAI让GPT-5.3-Codex从零开始构建了两款功能完整的游戏。在数百万Token的自主迭代中,模型展现了惊人的持续开发能力。
- 赛车游戏:包含不同的赛车手、多张地图和可使用道具。

- 潜水游戏:玩家可以探索珊瑚礁,收集鱼类并管理氧气。

更重要的是,GPT-5.3-Codex的理解意图能力得到了加强。例如,当被要求构建一个SaaS产品的落地页时,相比GPT-5.2-Codex,5.3-Codex会自动将年度价格折算为清晰的月付显示,并生成自动轮播的用户证言区域,使初始产出更接近可直接上线的成品。

它的能力边界早已超越单纯的代码生成。在专业知识工作基准测试GDPval中,GPT-5.3-Codex与GPT-5.2处于同一顶尖水平,能够协助完成财务分析PPT、零售培训文档、NPV(净现值)分析表格乃至时尚品牌客户演示材料等各类专业工作。

交互模式:实时协作与中途引导
随着模型能力越来越强,交互方式也在进化。GPT-5.3-Codex支持更频繁的操作过程更新,允许开发者在任务执行过程中进行实时引导和互动。
这意味着你不必等待最终结果,而是可以随时提问、讨论方法,并引导模型走向更优的解决方案。模型会解释其操作步骤,响应你的反馈,确保你全程保持同步,有效解决了复杂任务中常见的上下文丢失问题。

自我迭代:AI加速AI研发
本次发布一个有趣的亮点是,GPT-5.3-Codex在其自身的创造过程中发挥了关键作用。OpenAI透露,其研究团队使用GPT-5.3-Codex的早期版本,来训练、部署和优化最终的正式版模型,形成了一种高效的“自我加速”循环。
在实际研发工作流中,Codex已经深度介入:研究团队用它监控训练、分析模式、开发内部工具;工程团队依靠它优化测试框架、定位性能瓶颈、调度计算资源。这种深度应用预示着人工智能工具正在从根本上重塑其自身的开发范式。
竞争态势:与Claude Opus 4.6的正面交锋
此次发布之所以引发高度关注,直接原因是其紧随Anthropic的Claude Opus 4.6之后。根据Anthropic的介绍,Opus 4.6在制定计划、长时间执行智能体任务、处理海量代码库以及自我纠错方面均有升级,并且是首款在测试阶段支持1M Token上下文的Opus级别模型。

两大模型在相近时间点发布,功能定位高度重叠(都强调长程、复杂的智能体任务),将竞争直接摆上了台面。这一夜之间的“双响炮”,也让不少开发者和观察者感到应接不暇,纷纷调侃AI的进化速度已经让人“跟不上”。

总结与展望
GPT-5.3-Codex现已面向ChatGPT付费用户开放,覆盖Codex的所有应用场景,包括独立应用、CLI工具、IDE扩展和Web界面。它的发布,标志着Codex从一个强大的编程助手,向一个能够端到端操作计算机、完成各类复杂工作的“通用协作者”转型。
对于开发者而言,这意味着生产力的又一次潜在飞跃。而对于整个行业,OpenAI与Anthropic在顶级人工智能编程模型上的正面竞争,无疑将加速技术突破和应用落地的进程。如何高效地利用这些日益强大的智能体,将成为下一个阶段的关键课题。
想了解更多AI与开发领域的前沿动态和技术干货?欢迎访问 云栈社区 ,与更多开发者一起交流成长。