5522 积分	0 好友	731 主题

发消息

GPT-5.3-Codex初体验：AI编程能力跃升，复杂需求交付更顺畅

发表于 2026-2-27 06:19:25 | 查看: 125| 回复: 0

开年第一个工作日，我尝试了OpenAI的GPT-5.3-Codex。为了对它的效果有清晰的感知，我依然使用了之前做各种对比实践时的那个复杂需求。由于工作原因，需求和具体实现过程的细节不便公开，但可以和大家分享一下核心的试用结果：

总用时约2小时，模型实际执行任务仅用了40多分钟，消耗的总Token数大约在20万。最终的需求完成度是历来测试中最高的，表现优于之前尝试过的ClaudeCode、Kiro以及OpenCode+Superpowers等工具。
产出的代码具有良好的抽象和复用性，并且模型会自动执行Eslint检查，确保生成的代码能够直接运行。相比于之前其他模型产出结果频繁报错的情况，这次的体验异常顺畅丝滑，编码完成后几乎可以直接运行，没有出现之前调用Gemini-3-pro和Claude-Opus-4.6时遇到的项目不兼容的TypeScript语法或组件使用问题。
Codex在工作过程中无需人工频繁确认。它在完成一个子任务后，会主动进行总结，内容包括：增加了哪些文件、修改了哪些部分、采用了何种实现方式、如何使用、以及校验是否通过。更强大的是，它还能规划“下一步可以做什么”。这体现出它对自己实现过程中的取舍有清晰的认知（例如，某个分支功能因过于复杂暂未实现），并且知道未来可以如何改进（例如，做功能兼容性增强或代码合并）。
当新的指令与之前的实现要求冲突时，Codex能够自主决策，找到一个更优的折中方案。举个例子，我要求复用项目中一个已有的、结构非常复杂的编辑表格，但这个表格本身不支持左右布局，而这与我之前提出的“左右两栏”布局需求相矛盾。Codex通过修改代码，实现了对原有表格的复用，同时将右侧的内容在新弹出的窗口中展示。这种处理思路非常接近人类的思考方式——如果是我来实现，很可能也会采取类似的妥协方案。事实上，在我们内部评审这个需求时，就曾对左右布局的可行性进行过讨论，确实会面临展示与操作的矛盾。Codex能主动想到并实施这个折中方案，已经相当出色。此前，仅有Gemini和Sonnet的某个版本在类似场景下同时做到了“复用”和“左右布局”。

对我来说，这次体验的结果相当惊艳，因此有了“新王登基”的感慨。如果你心目中有其他的AI编程王者，也欢迎交流。

目前，你可以直接在 https://openai.com/zh-Hant/codex/get-started/ 下载试用。在完成这个复杂需求后，我的免费额度还剩大约四分之三，所以用它来应付一两天的开发工作应该不成问题。而且额度每周都会更新，正好可以用来横向对比其他编程工具。建议大家抓紧试用，目前免费账号可以使用GPT-5.3-Codex和GPT-5.2-Codex。AI编程领域的知识更新日新月异，我们不妨边用边等待下一位“新王”的诞生。

那么，面对能力如此强大的模型，我们应该如何更好地利用它呢？

首先，人必须明确“好代码”的sense或最终的验收标准。AI再强大，也需要按照你设定的功能目标和架构设计来工作。如果你只告诉模型“做一个用户登录功能”，它瞬间就能生成代码。但你需要的究竟是单点登录（SSO），还是支持多因素认证（MFA）？是否需要符合GDPR等合规标准？如果没有清晰的需求澄清，模型只能“猜测”，而在软件工程中，猜错的代价是巨大的。即便描述了需求，也需要人进行清晰的验收。如果过程中能有详细的、拆分后的产出物（如Markdown设计文档），人就能更早地介入验收和干预，而不是面对最终生成的上下行代码进行“对抗性评审”。

其次，本次尝试主要依赖自然语言描述需求，没有引入我们之前定义的“SPEC skills”等更结构化的流程。如果能结合更清晰的需求描述方法和模型的编码能力，对于最终按需求交付结果会有更大帮助。一个值得思考的命题是：随着模型能力的提升，这些流程的重要性可能不降反升。

模型能力的增强，改变的是“我们如何写代码”，而不是“我们要解决什么问题”。我们更需要一套流程或方法论，来解决大模型在面对“非文本环境”（如复杂的UI界面、庞大的代码工程）时，如何将一个模糊的高层目标，转化为一系列精确的原子操作。

举个例子：如果让模型一次性生成10,000行代码，人类进行Review和Debug的难度极大。但如果拆分为10个1,000行的子任务，甚至更细粒度的函数级任务，那么人类（或自动化测试）就能更容易地验证每个步骤的正确性。

因此，我们之前探索的一些最佳实践也需要进行改进，目标是让大型复杂工程的编码验收工作变得更可控。总体的思路是“过程干预”（将编码任务对应到具体的、可评审的需求点，让人有介入的余地）和“结果自动审查”（配合browser-use甚至Peekaboo这类视觉库，来实现基于需求语义的界面自动化验收）。

我将继续在这方面进行实践和探索，并在云栈社区与大家分享后续的发现与思考。在快速迭代的人工智能工具领域，持续的学习和实践才是硬道理。

上一篇：CLAUDE.md深度解析：Claude Code内部验证的AI研发提效工作流
下一篇：基于 SpringAI 与 Qwen3-8B 搭建本地 RAG 知识库：实战指南与效果解析

GPT-5．3-Codex, 人工智能编程, 大语言模型, 软件工程, TypeScript

GPT-5.3-Codex初体验：AI编程能力跃升，复杂需求交付更顺畅

相关帖子