开年第一个工作日,我尝试了OpenAI的GPT-5.3-Codex。为了对它的效果有清晰的感知,我依然使用了之前做各种对比实践时的那个复杂需求。由于工作原因,需求和具体实现过程的细节不便公开,但可以和大家分享一下核心的试用结果:
- 总用时约2小时,模型实际执行任务仅用了40多分钟,消耗的总Token数大约在20万。最终的需求完成度是历来测试中最高的,表现优于之前尝试过的ClaudeCode、Kiro以及OpenCode+Superpowers等工具。
- 产出的代码具有良好的抽象和复用性,并且模型会自动执行Eslint检查,确保生成的代码能够直接运行。相比于之前其他模型产出结果频繁报错的情况,这次的体验异常顺畅丝滑,编码完成后几乎可以直接运行,没有出现之前调用Gemini-3-pro和Claude-Opus-4.6时遇到的项目不兼容的TypeScript语法或组件使用问题。
- Codex在工作过程中无需人工频繁确认。它在完成一个子任务后,会主动进行总结,内容包括:增加了哪些文件、修改了哪些部分、采用了何种实现方式、如何使用、以及校验是否通过。更强大的是,它还能规划“下一步可以做什么”。这体现出它对自己实现过程中的取舍有清晰的认知(例如,某个分支功能因过于复杂暂未实现),并且知道未来可以如何改进(例如,做功能兼容性增强或代码合并)。
- 当新的指令与之前的实现要求冲突时,Codex能够自主决策,找到一个更优的折中方案。举个例子,我要求复用项目中一个已有的、结构非常复杂的编辑表格,但这个表格本身不支持左右布局,而这与我之前提出的“左右两栏”布局需求相矛盾。Codex通过修改代码,实现了对原有表格的复用,同时将右侧的内容在新弹出的窗口中展示。这种处理思路非常接近人类的思考方式——如果是我来实现,很可能也会采取类似的妥协方案。事实上,在我们内部评审这个需求时,就曾对左右布局的可行性进行过讨论,确实会面临展示与操作的矛盾。Codex能主动想到并实施这个折中方案,已经相当出色。此前,仅有Gemini和Sonnet的某个版本在类似场景下同时做到了“复用”和“左右布局”。
对我来说,这次体验的结果相当惊艳,因此有了“新王登基”的感慨。如果你心目中有其他的AI编程王者,也欢迎交流。
目前,你可以直接在 https://openai.com/zh-Hant/codex/get-started/ 下载试用。在完成这个复杂需求后,我的免费额度还剩大约四分之三,所以用它来应付一两天的开发工作应该不成问题。而且额度每周都会更新,正好可以用来横向对比其他编程工具。建议大家抓紧试用,目前免费账号可以使用GPT-5.3-Codex和GPT-5.2-Codex。AI编程领域的知识更新日新月异,我们不妨边用边等待下一位“新王”的诞生。
那么,面对能力如此强大的模型,我们应该如何更好地利用它呢?
首先,人必须明确“好代码”的sense或最终的验收标准。AI再强大,也需要按照你设定的功能目标和架构设计来工作。如果你只告诉模型“做一个用户登录功能”,它瞬间就能生成代码。但你需要的究竟是单点登录(SSO),还是支持多因素认证(MFA)?是否需要符合GDPR等合规标准?如果没有清晰的需求澄清,模型只能“猜测”,而在软件工程中,猜错的代价是巨大的。即便描述了需求,也需要人进行清晰的验收。如果过程中能有详细的、拆分后的产出物(如Markdown设计文档),人就能更早地介入验收和干预,而不是面对最终生成的上下行代码进行“对抗性评审”。
其次,本次尝试主要依赖自然语言描述需求,没有引入我们之前定义的“SPEC skills”等更结构化的流程。如果能结合更清晰的需求描述方法和模型的编码能力,对于最终按需求交付结果会有更大帮助。一个值得思考的命题是:随着模型能力的提升,这些流程的重要性可能不降反升。
模型能力的增强,改变的是“我们如何写代码”,而不是“我们要解决什么问题”。我们更需要一套流程或方法论,来解决大模型在面对“非文本环境”(如复杂的UI界面、庞大的代码工程)时,如何将一个模糊的高层目标,转化为一系列精确的原子操作。
举个例子:如果让模型一次性生成10,000行代码,人类进行Review和Debug的难度极大。但如果拆分为10个1,000行的子任务,甚至更细粒度的函数级任务,那么人类(或自动化测试)就能更容易地验证每个步骤的正确性。
因此,我们之前探索的一些最佳实践也需要进行改进,目标是让大型复杂工程的编码验收工作变得更可控。总体的思路是“过程干预”(将编码任务对应到具体的、可评审的需求点,让人有介入的余地)和“结果自动审查”(配合browser-use甚至Peekaboo这类视觉库,来实现基于需求语义的界面自动化验收)。
我将继续在这方面进行实践和探索,并在云栈社区与大家分享后续的发现与思考。在快速迭代的人工智能工具领域,持续的学习和实践才是硬道理。
|