这几天身边的朋友都说 Codex 变得非常好用了,做了很大的升级,我也去试用了下,确实还不错。我现在还只在 Windows 上设置了 Codex,它出了 Windows 版本,还有 Mac 版本,明天我准备再测试一下,据说配合 Computer use 可以完全操控电脑里的所有软件。
至少那个桌面宠物真的很好玩哈哈哈哈哈!
前两天我还刷到一件挺有意思的事:GPT-5.5 不只是发布了,围绕它还搞了一场很有“AI味儿”的活动。
时间选在 5 月 5 日下午 5:55,主题叫“GPT-5.5 on 5/5”。更有意思的是,据说这个时间和活动方案都是 GPT-5.5 自己参与策划的,包括短演讲、现场收集 GPT-5.6 建议,甚至参与者筛选也与 Codex 有关——是它自己在奥特曼的推特上自动选取的,被邀请的观众会收到相应的邮件通知。
说实话,单看这些噱头,我一开始觉得营销味儿有点重。但仔细一想,这背后真正重要的不是发布会本身,而是 OpenAI 正把“AI自主干活”这件事推到台前。
以前我们说 AI 编程,大多聊的是补全、问答、改 bug。现在 Codex 给人的感觉更像是:你把一个任务丢给它,它自己去看代码、跑命令、改文件、查问题,然后再把结果交回来。
这就不只是“工具”了,更像一个能一起干活的同事。
Codex 为什么突然反超?
过去 Claude Code 在很多开发者的心里,是 AI 编程工具里的高端选手。模型强、代码质量稳,尤其适合处理复杂项目。
但最近两个月,社区里明显能感觉到一波迁移在发生:越来越多人开始从 Claude Code 转向 Codex。
这几天相关的数据也很夸张。当然,数据归数据,我觉得更重要的还是用户体感——不止一个朋友跟我说,Codex 现在进化了。
Claude Code 并不是不强。它在一些代码质量盲测、SWE-bench Pro 这类指标上,表现依然很能打。但问题在于,开发者用工具不只是看“谁更聪明”,还要看“谁更稳定、谁更可控、谁更不折腾”。Claude 在风控上搞得太严重了,身份认证、IP 检测等等,导致这个模型虽然很强,但用不到,就相当于模型能力很夯,可用性却拉胯。这和前几天我对国内大模型 CodingPlan 的评价是一个道理。
这段时间 Claude Code 被吐槽配额消耗异常、token 计费不透明、套餐调整反复,这些事情叠在一起,很容易伤信任。开发者最怕的不是工具偶尔犯错,而是你不知道它什么时候突然变贵、变限、变得不可控。
Codex 这边刚好打中了另一面:Plus 用户还能用,额度策略相对稳定,功能越做越像一个完整的 Agent IDE。它不只是帮你写几行代码,而是能看项目结构、跑命令、改文件、查错误,逐渐变成一个真正能协作的编程环境。
所以现在回看这场变化,我觉得不是简单的“Codex 打败 Claude Code”。
更准确地说,是 AI 编程工具从“高手专用刀”,开始走向“普通人也能天天用的工作台”。
Claude Code 像手术刀,锋利,适合深水区的复杂项目。Codex 更像瑞士军刀,不一定每一项都最极致,但胜在打开就能用,覆盖场景多,使用门槛低。
而产品一旦走向大众市场,决定胜负的往往就不只是技术参数了——是稳定性,是价格,是体感,是用户敢不敢把活交给你。
GPT-5.5 这次真正让我关注的,也不是名字多了个 0.5,而是它背后代表的方向:AI 不再只是回答问题,而是在尝试接管一段完整的工作流。现在 GPT-5.6 马上又要来,挺期待的。虽然单论模型能力可能还是比不上 Claude,但它在“模型能力 + Agent 架构 + Skills 能力”这三个层面做了配合,就像手里攥着四个 2,也能拼得上一张大王。
未来我们讨论 AI 编程工具,大概不会再只问“哪个模型更聪明”,而是会问:我愿不愿意把今天这摊活儿,放心地交给它?要考虑的,早就不只是模型本身了。