云栈社区»论坛 › 开发者广场「Dev Plaza」 › GPT-5.3-Codex发布，全面Agent化编程模型实测跑分超Claude 4.6 ...

5622 积分	0 好友	762 主题

发消息

GPT-5.3-Codex发布，全面Agent化编程模型实测跑分超Claude 4.6

发表于 2026-2-11 14:02:07 | 查看: 148| 回复: 0

OpenAI和Anthropic这两大AI巨头的竞争，几乎到了“贴脸对打”的程度。

就在Claude Opus 4.6发布还不到半小时，OpenAI便毫无预警地推出了GPT-5.3-Codex。这并非一次常规的版本更新，而是被定位为OpenAI当前能力最强的Agent化编程模型。

OpenAI与Claude官方同日发布新模型的推文对比

对此，网友搬出了那张经典的讽刺图，调侃AI公司循环发布“世界最强模型”的现状：

AI公司循环宣称发布世界最强模型的讽刺图

更有意思的是，OpenAI在介绍中罕见地承认了一个事实：在开发GPT-5.3-Codex的过程中，团队使用了其早期版本来调试自身训练、管理部署流程、诊断测试结果。这无异于承认AI在一定程度上参与并加速了自身的开发。

OpenAI官方关于GPT-5.3-Codex参与自我开发的说明

如果说以往的Codex是一个高效的编码助手，那么GPT-5.3-Codex的目标，则是一个“能在电脑上完成几乎全部专业工作”的通用智能体。它不再局限于代码生成，而是能够长期稳定地运行任务、调用工具、操作终端、管理从开发到上线的全流程。

OpenAI联合创始人Greg Brockman更是直言，软件开发正经历一场“文艺复兴”，而AI智能体正在成为工程师处理任务的“第一入口”。

OpenAI总裁Greg Brockman关于Agent改变软件开发的推文

多项基准测试夺魁，实测稳定性获认可

那么，GPT-5.3-Codex的实际能力究竟如何？我们先用最直观的基准测试跑分来说话。

最显著的提升体现在其终端环境的实际执行能力上。在专门衡量智能体能否在真实终端中完成复杂工程任务的Terminal-Bench 2.0测试中，GPT-5.3-Codex拿到了77.3%的分数，相比上一代GPT-5.2-Codex的64.0%，提升幅度接近13个百分点。而根据测试，Claude Opus 4.6在该项基准上的成绩为65.4%，GPT-5.3-Codex领先了约12%。

GPT-5.3-Codex与旧版本及Claude模型在多项基准测试中的对比

除了终端任务，其核心能力提升还包括：

计算机操作能力翻倍：在OSWorld-Verified测试中，得分从上一代的38.2%跃升至64.7%。
网络安全能力增强：在网络安全夺旗挑战赛（Cybersecurity CTF）中，取得77.6%的得分，比前代提升约10%。
输出准确率更高：在SWE-Bench Pro等编程基准上，其准确率在不同输出长度下均稳定高于前代模型。

GPT-5.3-Codex在SWE-Bench Pro测试中随输出长度变化的准确率曲线

对于用户关心的“GPT-5.3-Codex和Claude Code谁更好用”的问题，AI助手Grok给出了一个“端水大师”般的回答，指出两者在不同任务上各有优势，建议用户根据自身需求进行尝试。

Grok对比GPT-5.3-Codex与Claude系列模型的回答

网友实测：敢于“放手”8小时的编程智能体

光看跑分还不够，早期试用者的实测反馈更能说明问题。开发者Matt Shumer（Github for prompts创建者）在深度体验后，撰写了一篇标题为《完全自主时代已到来》的评测，分享了他的震撼体验。

Matt Shumer撰写的GPT-5.3-Codex评测文章截图

Matt指出，这是他第一次敢于将一项复杂任务启动后，离开数小时（甚至超过8小时）而不用担心模型崩溃或偏离轨道。GPT-5.3-Codex不仅能写代码，更能自主完成模糊信息补全、架构判断、调试、部署、查看日志等一系列动作，并持续迭代直到所有测试通过。

让他印象最深的并非模型单纯的“聪明”，而是其优秀的工程判断力。当指令存在歧义时，模型倾向于选择更稳健、可持续的解决方案，而非追求短期速度的“捷径”。

Matt强调，只要你清晰地定义了任务的成功/失败标准，它就能形成一个完整的自迭代闭环，无需人工频繁干预。它可以独立完成修改代码、提交推送、部署上线、检查线上日志的全流程，并利用命令执行的等待时间补充文档或修复小问题，且不会越界修改无关内容。

关于长链路任务的稳定性，Matt认为GPT-5.3-Codex的表现明显优于Claude Opus 4.5。 虽然它的执行速度可能更慢，但其稳定性和可靠性足以让用户安心。此外，多智能体协作也变得更加实用，能够有效地将任务拆分为并行工作流，提升整体效率。

当然，为了“稳”所付出的代价也很明显：速度偏慢，过程播报有时会中断，且不太适合用于最初的Prompt或智能体架构设计阶段。但如果你追求的是在复杂、长时间、约束多的任务中“一次做对、无需紧盯”，那么GPT-5.3-Codex提供了一个前所未有的可靠选择。

Agent化转型：软件开发流程的重构

前文提及的OpenAI总裁Greg Brockman的帖子，更像是一份公司内部向“Agent化软件开发”转型的路线图说明书。他提到，自去年12月以来，像Codex这样的工具能力出现了阶跃式提升，以至于OpenAI内部一些优秀工程师的工作方式已发生根本变化——从以前只用它写单元测试，到现在几乎编写所有代码并处理大量运维调试。

这引发了一个更深层的问题：当模型能力强大到可以独立跑完从编码到部署的整个工程链路时，公司面临的挑战就不再是“要不要用”，而是如何重构现有的流程、代码结构乃至团队协作方式，以适配智能体作为“第一入口”的新范式。

为此，OpenAI向内部团队提出了一系列具体建议，包括：

投入时间积极尝试并融入工作流，设立“Agent负责人”。
为项目创建和维护AGENTS.md文档，抽象并共享可复用的技能（skills）。
盘点并开放内部工具接口（如CLI或MCP Server），使其可被智能体访问。
调整代码库结构，使其更“智能体友好”（例如编写运行快速的测试、构建高质量的组件接口）。
建立严格的代码审查与归属流程，管理大规模AI生成代码的质量。
建设支持智能体运行的基础设施，包括执行轨迹记录和统一的可观测性系统。

这些实践揭示了AI时代软件开发范式的潜在变革方向，值得整个技术社区，尤其是像云栈社区这样的开发者聚集地深入探讨和思考。

参考链接：

上一篇：Vibe Coding工具实践：阿里内部遇到的代码质量、成本与调试挑战及解决方案
下一篇：OpenClaw实战：我如何将它打造为“第二操作系统”级Agent系统

GPT-5．3-Codex, Claude, 人工智能编程, 基准测试, 开发自动化

GPT-5.3-Codex发布，全面Agent化编程模型实测跑分超Claude 4.6

多项基准测试夺魁，实测稳定性获认可

网友实测：敢于“放手”8小时的编程智能体

Agent化转型：软件开发流程的重构

相关帖子