先说个教训:没事最好别用 Docker 跑 Codex,老蛋疼了。
前两天体验了一把在 Linux 端,因为操作系统版本太低,用 Docker 部署的 Codex,结果各种限制,差点没给我用吐了。
算了,还是老老实实在本机 Windows 装吧。
这样一来,我就在当前的 Windows 电脑,同时安装了 Codex 跟 Claude Code,且都是最新版。
作为两款顶流 Coding Agent,那咱就 PK 一下子吧。
0. 对比项目
先说软件基础条件。
1. 软件版本
Codex:v0.130.0
Claude Code:v2.1.141
2. 大模型
Codex:默认免费的 ChatGPT-5.5
Claude Code:收费的 GLM-5.1
对比项目:调用当前电脑的 Chrome 浏览器,操作知乎网站。
1. 能不能调?
对于能不能调用本机的 Chrome 浏览器,两个 Agent 的回答,截然不同。
先看 Claude Code:

没法直接调用,得装一堆乱七八糟的软件。
行,依它:

装了一堆东西后。
算是可以了。

再看 Codex 的回答:

非常干脆,直接开干,不用安装也没有调用任何其他工具。
2. 调用效果
Codex 跟 Claude Code 打了个平手。
都能在我当前已经打开的 Chrome 浏览器里,分别创建新的标签页,把知乎的主页打开。
Codex 打开的:

Claude Code 打开的:

由于浏览器已经缓存了我的账号信息,所以两个页面打开后,都是登录的状态。

3. 点赞测试
好,问题升级:分别让它俩在打开的知乎主页里,给目前点赞最高的文章点个赞。
Claude Code:

上来就怂了,直接说不行。
然后告诉我需要额外调用其他工具(要先安装),再写对应的脚本来搞定。
行,让它玩:

结果,人家要我把已经打开的所有浏览器窗口都给关了,开玩笑的吧,那不行,我还得干其他活呢。
再看 Codex:
直接上来就咔咔一顿操作,


然后就可以了:

你说,这怎么能让人不喜欢呢?
4. 评论测试
再来个升级:给当前主页的第 8 篇文章,回复个评论,评论内容为:棒!
Claude Code:

上来写了个脚本,然后又要我关闭浏览器,好想揍它。
再看 Codex:

啥废话也没有,直接搞定,关键效率还高。
最后
对于本机 Chrome 浏览器的调用测试,从「效果」跟「干脆」程度上来看,明显 Codex 要更强。
相同的事情,虽然 Claude Code 也能干,但是吧,总给你一种「暧昧不清」跟「偷偷摸摸」兼「不情不愿」的错觉,没有 Codex 的从容。
模型的问题?
也许是,但要知道,Codex 的 ChatGPT-5.5,咱用的可是免费的哩,免费的都能干出这样的成绩,能不让人开心吗。
至于它的作用?
我能想到的是,以后针对各种页面系统的各项指标软件测试,直接就可以用 Codex 来搞定了。在类似这样的开发杂谈里观察不同工具的脾性,也是件有意思的事——各位去开发者广场逛逛,肯定能碰到更多真实又有趣的技术吐槽。
|