OpenAI和Anthropic这两大AI巨头的竞争,几乎到了“贴脸对打”的程度。
就在Claude Opus 4.6发布还不到半小时,OpenAI便毫无预警地推出了GPT-5.3-Codex。这并非一次常规的版本更新,而是被定位为OpenAI当前能力最强的Agent化编程模型。

对此,网友搬出了那张经典的讽刺图,调侃AI公司循环发布“世界最强模型”的现状:

更有意思的是,OpenAI在介绍中罕见地承认了一个事实:在开发GPT-5.3-Codex的过程中,团队使用了其早期版本来调试自身训练、管理部署流程、诊断测试结果。这无异于承认AI在一定程度上参与并加速了自身的开发。

如果说以往的Codex是一个高效的编码助手,那么GPT-5.3-Codex的目标,则是一个“能在电脑上完成几乎全部专业工作”的通用智能体。它不再局限于代码生成,而是能够长期稳定地运行任务、调用工具、操作终端、管理从开发到上线的全流程。
OpenAI联合创始人Greg Brockman更是直言,软件开发正经历一场“文艺复兴”,而AI智能体正在成为工程师处理任务的“第一入口”。

多项基准测试夺魁,实测稳定性获认可
那么,GPT-5.3-Codex的实际能力究竟如何?我们先用最直观的基准测试跑分来说话。
最显著的提升体现在其终端环境的实际执行能力上。在专门衡量智能体能否在真实终端中完成复杂工程任务的Terminal-Bench 2.0测试中,GPT-5.3-Codex拿到了77.3%的分数,相比上一代GPT-5.2-Codex的64.0%,提升幅度接近13个百分点。而根据测试,Claude Opus 4.6在该项基准上的成绩为65.4%,GPT-5.3-Codex领先了约12%。

除了终端任务,其核心能力提升还包括:
- 计算机操作能力翻倍:在OSWorld-Verified测试中,得分从上一代的38.2%跃升至64.7%。
- 网络安全能力增强:在网络安全夺旗挑战赛(Cybersecurity CTF)中,取得77.6%的得分,比前代提升约10%。
- 输出准确率更高:在SWE-Bench Pro等编程基准上,其准确率在不同输出长度下均稳定高于前代模型。

对于用户关心的“GPT-5.3-Codex和Claude Code谁更好用”的问题,AI助手Grok给出了一个“端水大师”般的回答,指出两者在不同任务上各有优势,建议用户根据自身需求进行尝试。

网友实测:敢于“放手”8小时的编程智能体
光看跑分还不够,早期试用者的实测反馈更能说明问题。开发者Matt Shumer(Github for prompts创建者)在深度体验后,撰写了一篇标题为《完全自主时代已到来》的评测,分享了他的震撼体验。

Matt指出,这是他第一次敢于将一项复杂任务启动后,离开数小时(甚至超过8小时)而不用担心模型崩溃或偏离轨道。GPT-5.3-Codex不仅能写代码,更能自主完成模糊信息补全、架构判断、调试、部署、查看日志等一系列动作,并持续迭代直到所有测试通过。
让他印象最深的并非模型单纯的“聪明”,而是其优秀的工程判断力。当指令存在歧义时,模型倾向于选择更稳健、可持续的解决方案,而非追求短期速度的“捷径”。
Matt强调,只要你清晰地定义了任务的成功/失败标准,它就能形成一个完整的自迭代闭环,无需人工频繁干预。它可以独立完成修改代码、提交推送、部署上线、检查线上日志的全流程,并利用命令执行的等待时间补充文档或修复小问题,且不会越界修改无关内容。
关于长链路任务的稳定性,Matt认为GPT-5.3-Codex的表现明显优于Claude Opus 4.5。 虽然它的执行速度可能更慢,但其稳定性和可靠性足以让用户安心。此外,多智能体协作也变得更加实用,能够有效地将任务拆分为并行工作流,提升整体效率。
当然,为了“稳”所付出的代价也很明显:速度偏慢,过程播报有时会中断,且不太适合用于最初的Prompt或智能体架构设计阶段。但如果你追求的是在复杂、长时间、约束多的任务中“一次做对、无需紧盯”,那么GPT-5.3-Codex提供了一个前所未有的可靠选择。
Agent化转型:软件开发流程的重构
前文提及的OpenAI总裁Greg Brockman的帖子,更像是一份公司内部向“Agent化软件开发”转型的路线图说明书。他提到,自去年12月以来,像Codex这样的工具能力出现了阶跃式提升,以至于OpenAI内部一些优秀工程师的工作方式已发生根本变化——从以前只用它写单元测试,到现在几乎编写所有代码并处理大量运维调试。
这引发了一个更深层的问题:当模型能力强大到可以独立跑完从编码到部署的整个工程链路时,公司面临的挑战就不再是“要不要用”,而是如何重构现有的流程、代码结构乃至团队协作方式,以适配智能体作为“第一入口”的新范式。
为此,OpenAI向内部团队提出了一系列具体建议,包括:
- 投入时间积极尝试并融入工作流,设立“Agent负责人”。
- 为项目创建和维护
AGENTS.md文档,抽象并共享可复用的技能(skills)。
- 盘点并开放内部工具接口(如CLI或MCP Server),使其可被智能体访问。
- 调整代码库结构,使其更“智能体友好”(例如编写运行快速的测试、构建高质量的组件接口)。
- 建立严格的代码审查与归属流程,管理大规模AI生成代码的质量。
- 建设支持智能体运行的基础设施,包括执行轨迹记录和统一的可观测性系统。
这些实践揭示了AI时代软件开发范式的潜在变革方向,值得整个技术社区,尤其是像云栈社区这样的开发者聚集地深入探讨和思考。
参考链接: