找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3681

积分

0

好友

515

主题
发表于 2026-2-11 14:02:07 | 查看: 33| 回复: 0

OpenAI和Anthropic这两大AI巨头的竞争,几乎到了“贴脸对打”的程度。

就在Claude Opus 4.6发布还不到半小时,OpenAI便毫无预警地推出了GPT-5.3-Codex。这并非一次常规的版本更新,而是被定位为OpenAI当前能力最强的Agent化编程模型

OpenAI与Claude官方同日发布新模型的推文对比

对此,网友搬出了那张经典的讽刺图,调侃AI公司循环发布“世界最强模型”的现状:

AI公司循环宣称发布世界最强模型的讽刺图

更有意思的是,OpenAI在介绍中罕见地承认了一个事实:在开发GPT-5.3-Codex的过程中,团队使用了其早期版本来调试自身训练、管理部署流程、诊断测试结果。这无异于承认AI在一定程度上参与并加速了自身的开发

OpenAI官方关于GPT-5.3-Codex参与自我开发的说明

如果说以往的Codex是一个高效的编码助手,那么GPT-5.3-Codex的目标,则是一个“能在电脑上完成几乎全部专业工作”的通用智能体。它不再局限于代码生成,而是能够长期稳定地运行任务、调用工具、操作终端、管理从开发到上线的全流程。

OpenAI联合创始人Greg Brockman更是直言,软件开发正经历一场“文艺复兴”,而AI智能体正在成为工程师处理任务的“第一入口”。

OpenAI总裁Greg Brockman关于Agent改变软件开发的推文

多项基准测试夺魁,实测稳定性获认可

那么,GPT-5.3-Codex的实际能力究竟如何?我们先用最直观的基准测试跑分来说话。

最显著的提升体现在其终端环境的实际执行能力上。在专门衡量智能体能否在真实终端中完成复杂工程任务的Terminal-Bench 2.0测试中,GPT-5.3-Codex拿到了77.3%的分数,相比上一代GPT-5.2-Codex的64.0%,提升幅度接近13个百分点。而根据测试,Claude Opus 4.6在该项基准上的成绩为65.4%,GPT-5.3-Codex领先了约12%。

GPT-5.3-Codex与旧版本及Claude模型在多项基准测试中的对比

除了终端任务,其核心能力提升还包括:

  • 计算机操作能力翻倍:在OSWorld-Verified测试中,得分从上一代的38.2%跃升至64.7%。
  • 网络安全能力增强:在网络安全夺旗挑战赛(Cybersecurity CTF)中,取得77.6%的得分,比前代提升约10%。
  • 输出准确率更高:在SWE-Bench Pro等编程基准上,其准确率在不同输出长度下均稳定高于前代模型。

GPT-5.3-Codex在SWE-Bench Pro测试中随输出长度变化的准确率曲线

对于用户关心的“GPT-5.3-Codex和Claude Code谁更好用”的问题,AI助手Grok给出了一个“端水大师”般的回答,指出两者在不同任务上各有优势,建议用户根据自身需求进行尝试。

Grok对比GPT-5.3-Codex与Claude系列模型的回答

网友实测:敢于“放手”8小时的编程智能体

光看跑分还不够,早期试用者的实测反馈更能说明问题。开发者Matt Shumer(Github for prompts创建者)在深度体验后,撰写了一篇标题为《完全自主时代已到来》的评测,分享了他的震撼体验。

Matt Shumer撰写的GPT-5.3-Codex评测文章截图

Matt指出,这是他第一次敢于将一项复杂任务启动后,离开数小时(甚至超过8小时)而不用担心模型崩溃或偏离轨道。GPT-5.3-Codex不仅能写代码,更能自主完成模糊信息补全、架构判断、调试、部署、查看日志等一系列动作,并持续迭代直到所有测试通过。

让他印象最深的并非模型单纯的“聪明”,而是其优秀的工程判断力。当指令存在歧义时,模型倾向于选择更稳健、可持续的解决方案,而非追求短期速度的“捷径”。

Matt强调,只要你清晰地定义了任务的成功/失败标准,它就能形成一个完整的自迭代闭环,无需人工频繁干预。它可以独立完成修改代码、提交推送、部署上线、检查线上日志的全流程,并利用命令执行的等待时间补充文档或修复小问题,且不会越界修改无关内容。

关于长链路任务的稳定性,Matt认为GPT-5.3-Codex的表现明显优于Claude Opus 4.5。 虽然它的执行速度可能更慢,但其稳定性和可靠性足以让用户安心。此外,多智能体协作也变得更加实用,能够有效地将任务拆分为并行工作流,提升整体效率。

当然,为了“稳”所付出的代价也很明显:速度偏慢,过程播报有时会中断,且不太适合用于最初的Prompt或智能体架构设计阶段。但如果你追求的是在复杂、长时间、约束多的任务中“一次做对、无需紧盯”,那么GPT-5.3-Codex提供了一个前所未有的可靠选择。

Agent化转型:软件开发流程的重构

前文提及的OpenAI总裁Greg Brockman的帖子,更像是一份公司内部向“Agent化软件开发”转型的路线图说明书。他提到,自去年12月以来,像Codex这样的工具能力出现了阶跃式提升,以至于OpenAI内部一些优秀工程师的工作方式已发生根本变化——从以前只用它写单元测试,到现在几乎编写所有代码并处理大量运维调试。

这引发了一个更深层的问题:当模型能力强大到可以独立跑完从编码到部署的整个工程链路时,公司面临的挑战就不再是“要不要用”,而是如何重构现有的流程、代码结构乃至团队协作方式,以适配智能体作为“第一入口”的新范式。

为此,OpenAI向内部团队提出了一系列具体建议,包括:

  1. 投入时间积极尝试并融入工作流,设立“Agent负责人”。
  2. 为项目创建和维护AGENTS.md文档,抽象并共享可复用的技能(skills)。
  3. 盘点并开放内部工具接口(如CLI或MCP Server),使其可被智能体访问。
  4. 调整代码库结构,使其更“智能体友好”(例如编写运行快速的测试、构建高质量的组件接口)。
  5. 建立严格的代码审查与归属流程,管理大规模AI生成代码的质量。
  6. 建设支持智能体运行的基础设施,包括执行轨迹记录和统一的可观测性系统。

这些实践揭示了AI时代软件开发范式的潜在变革方向,值得整个技术社区,尤其是像云栈社区这样的开发者聚集地深入探讨和思考。

参考链接:




上一篇:Vibe Coding工具实践:阿里内部遇到的代码质量、成本与调试挑战及解决方案
下一篇:OpenClaw实战:我如何将它打造为“第二操作系统”级Agent系统
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-23 12:57 , Processed in 0.371167 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表