前两篇我们干了两件事:
第1篇,我们立了个flag——“超级个体”,一个人 + AI = 一支产品团队。
第2篇,我们修了个内功——“递归学习法”,自上而下,用项目倒推知识。
心法有了,该选兵器了。你说你要造个产品,好,问你三个问题:
- 你的AI主力是谁?
- 遇到复杂架构问题找谁?
- 限频了、额度用完了怎么办?
答不上来?没关系,今天只聊一件事:
如何像招聘员工一样,给AI编码工具分个三六九等。
一、选AI工具 = 招聘你的虚拟开发团队
写在前面:
接下来的内容,是我过去半年把市面上所有主流大模型都深度体验过之后,得出的个人使用感受而已。
强调四点:
- 绝对是主观感受,不是客观真理
- 模型每天都在迭代,今天的评价不代表永远
- 全部提到的大模型我都付费使用过一段时间,不是仅限于测评
- 不喜勿喷,仅做参考,欢迎理性讨论
好,声明完了,进入正题。
你想想看,你组建一个开发团队的时候,会怎么招人?
- CTO:管架构、做决策、攻克难题
- 高级工程师:独当一面,扛起核心模块
- 中级工程师:日常CRUD,不出错就行
- 实习生:……算了,还是自己写吧
你不会让实习生去做架构设计,也不会让CTO去写CRUD。
选AI工具也一样——不是越贵越好,而是把对的人放在对的位置上。
二、AI编码工具“职级天梯”:从CTO到实习生
本文我将以个人体感最强的 Claude Opus 4.6 作为10分满分基准。

🏆 CTO档:Claude Opus 4.6(独一档,10分)
🏆 CTO档
模型:Claude Opus 4.6
评分:10/10(基准线)
成本:输入($5 / 1M tokens),输出($25 / 1M tokens)
能力定位:架构设计、复杂问题拆解、技术决策、疑难攻坚。
说实话,用过这么多模型之后,Opus 4.6 是唯一一个让我有“这家伙那么像人呢 ”这种感觉的。不止Opus 4.6,其他的 claude 模型都给我这个感觉,在过往的文章中,我反复提过「人味」这个词:
都说GPT-5.3-Codex跟他同一水平的,但是GPT-5.3-Codex像个高冷的资深工程师,不愿意跟你多说半句,生成的反馈或者代码都比较直接、简洁。
它的特点不是“写代码快”,而是 “想得深” 。给它一个模糊需求,它能帮你理清思路、拆解架构、预判坑点。这种类人能力,其他模型目前还跟他有点差距。
适用场景:新项目启动、复杂功能设计、技术选型、跨模块重构
使用建议:
把它当技术顾问,不是码农。一周用3-4次攻克关键难题就值回票价,天天拿它写CRUD才是暴殄天物。 ps: 当然,如果你预算充裕、不在乎 token 消耗,相信我,请尽管放开用——有钱就是任性。
👔 资深工程师档:GPT-5.2 Codex / Gemini 3 Pro(8-9分)
🥈资深工程师档
模型:GPT-5.2 Codex / Gemini 3 Pro
评分:8-9/10
成本:具体分析
能力定位:独立完成功能模块、代码质量高、技术广度强。
这一档就是团队里的骨干——交给它们一个功能模块,基本不用太操心。
GPT-5.2 Codex(9分):
API成本:
- 输入:$1.75 / 1M tokens
- 输出:$14 / 1M tokens
OpenAI的当家花旦,代码质量稳定,逻辑清晰,尤其在主流技术栈(React、Python、Node.js)上几乎不翻车。给它一个完整的功能模块,交付质量很少让人失望。Codex 模式下的自主编码能力更是一绝,而且做后端项目体验感更好。
唯一的槽点:偶尔会“过度热心”——你让它改个按钮颜色,它顺手把整个组件重构了。需要在 prompt 里适当约束。
Gemini 3 Pro(8分):
API成本:
- 输入:$2 / 1M tokens
- 输出:$12 / 1M tokens
Google 的重量级选手,最大优势是超长上下文窗口。当你需要让模型理解一个庞大的代码库时,Gemini 可以一口气吃下去,这点其他模型望尘莫及。
技术广度也很强,各种语言框架都能接得住,还有一个点审美能力是所有模型中最强的,做前端项目更有优势。
不足之处在于 :生成代码偶尔有小瑕疵,比如类型处理不够严谨、边界情况考虑不周全。不是大问题,但需要你 review 时多留个心眼。
适用场景:前端界面开发、 生成原型图等、中等复杂度重构,一定要搭配 Antigrovity IDE 工具和 Gemini cli 智能体使用才能发挥最大能力,不然只使用它的 api : gemini-3-pro-preview 效果差非常多,正因如此它才值 8 分。
使用建议:
左膀右臂,80%的日常开发工作可以交给它们。GPT 胜在稳定输出,Gemini 胜在大上下文理解,按需调配即可。
- Gemini 在国外模型中类似 GLM 在国内的地位,不但上下文量大,成本也是最划算的。
- GPT 能力不比 claude 差,我给 9 分的原因,因为它输出太慢了,等得我好急,容易中断思路。
🧑💻 高级工程师档:GLM-4.7 / MiniMax M2.1 / Kimi K2.5(6.5-7分)
🥉高级工程师档
模型:GLM-4.7 / MiniMax M2.1 / Kimi K2.5
评分:6.5-7/10
成本:国内模型大多都是包月套餐
这一档是国产模型的第一梯队,也是大部分人的性价比最优解。逐一说:
GLM-4.7(7分,首选):
国产最强,单一任务的能力已经非常接近Claude水平了。包括最新的kimi-k2.5。
但问题出在哪?涉及面广的时候——比如“重构这三个模块的数据流”——它就开始遗漏细节,需要你多轮补充。
- 💰 Lite套餐40元/月,每5小时约120次prompts
- ⚠️ 痛点:限频严重——最近超售导致响应慢、偶尔返回空响应
目前国产领域的性价比之王,但最近“限频”两个字是真能把人逼疯。
MiniMax M2.1(6.5分,备选):
能力比GLM差一点点,遗漏细节的情况更多一些,但关键时刻能顶上。
- 💰 Starter套餐29元/月,每5小时40 prompts。(小 tips,如果首次购买,可能国外站点优惠政策更划算)
- 🎯 定位:GLM限频时的替补方案
Kimi K2.5(6.5分,不太推荐):
和前两者差别不大。官方主打前端能力(审美能力比肩 Gemini 3 pro),但实际如果不是前端编码的话体感并不明显。最大的问题是性价比——
- 💰 Andante套餐49元/月(4.9元/周试用),按tokens限制
- ⚠️ 痛点:做2个任务就消耗掉周总量的12%,156小时才重置
49块一个月,听着不贵,但用起来捉襟见肘。
PS:我个人认为 kimi 的策略用错了,k2.5 是原生多模态模型,一旦性价比跟 glm-4.7 一样,如果为了要发布的 glm-5 不是有很大提升的话,我个人是很愿意用 k2.5 代替 glm 的。
整体适用场景:标准CRUD、常规页面开发、配置文件、单元测试、阅读文件
👨💻 中级工程师档:豆包 doubao-seed-code / 千问 qwen3(4分)
中级工程师档
模型:豆包 doubao-seed-code / 千问 qwen3
评分:4/10
成本:$
豆包(4分):
虽然也是多模态,但是智商偏弱,但有个意外特长——写文档挺不错的。编程方面,简单任务还行,稍复杂就开始犯迷糊。
- 💰 Lite 40元/月(首月9.9元),每5小时1200次,每周9000次,每月18000次
- 🎁 特殊福利:火山引擎搞的套餐非常有趣,同时支持GLM-4.7、Kimi K2.5、DeepSeek-V3.2(需配置指定,否则是混合调用)
这里我只是讲豆包的编程效果
千问(4分):
Qwen3-Max-Thinking各个方面都很强,但是在编码方面,我认为能参与解决问题,但能不能真正解决,看运气和人品。阿里云资源丰富,响应速度倒是很快,可惜编程能力确实一般。
这里我只是讲豆包和千问的编程效果,其他方面他们两个都算国货之光,我日常也经常用豆包处理各种事情,例如翻译、语音、图片处理等等。
🎓 初级/实习生档:其他国产模型(不推荐)
🎓 初级/实习生档
模型:其他国产模型
评分:<4/10
成本:免费或极低
连中级工程师(豆包、千问)都比不上的模型,我直说了:
用它们对话的时间,还不如我自己敲代码来得实在。
典型场景还原:
你花10分钟描述需求 → AI写代码 → 你花10分钟调试发现bug → 再花10分钟沟通修复 → 结果还不如你自己15分钟手写来得快。
这不叫“AI辅助编程”,这叫“AI辅助浪费时间”。
建议:练手可以用免费模型,想真正提效,请直接从GLM-4.7起步。
三、选型决策树:按任务和预算选AI
理论讲完了,给你两棵决策树,照着选就行。这就是典型的技术选型思路,能帮你快速定位到合适的工具。
1. 按任务类型选:
按任务类型选AI:
├─ 架构设计/技术决策 → Claude Opus 4.6
├─ 功能模块开发 → GPT-5.2 Codex / Gemini 3 Pro
├─ 日常CRUD/常规开发 → GLM-4.7
├─ 文档生成/辅助写作 → MiniMax M2.1 / 豆包
└─ 练手实验 → 免费模型随便用
2. 按月预算选:
按月预算选AI:
├─ 充足(>200元/月)→ Opus 4.6 + GPT-5.2,全档位覆盖
├─ 中等(50-100元) → GLM-4.7 主力 + 偶尔Opus攻坚
└─ 紧张(<50元) → GLM-4.7 或 MiniMax M2.1
我的实战配置
说完选型建议,也晒晒我自己的日常配置
💰 我的AI工具配置:
├─ 主力日常:GLM-4.7(40元/月)
├─ 关键决策:Claude Opus 4.6 / Claude Sonnet 系列(按需付费,中转API,充值100美金)
├─ 备选替补:MiniMax M2.1 / Kimi K2.5(29元/月,GLM 限频时顶上,几乎用不上)
└─ 月总成本:约100 - 500元
看过我往期文章的朋友都知道,日常为我打工的主力军是 Claude Code 这个编码智能体。
上面介绍的各种大语言模型,我都会挂到 Claude Code 里搭配使用,能解决绝大部分开发问题。这种结合不同大模型的实践,在当前的AI工程化中非常普遍。
可能你们会问:Codex CLI 和 Gemini CLI 也很强,为啥不一起用?偏偏死磕 Claude Code?
我的体感是:Claude Code 的工程化能力更丰富,生态更成熟,工具调度更智能。
它率先提出的 MCP、Skills、Plugins、Subagents(子代理)四大工程化能力,一直被其他同行模仿和追赶。
秉着贪多嚼不烂的原则,没必要三者同时用。
而且就算其他两家各有优势,Claude Code 也会跟进——比如 K2.5 提出的 Agent Swarm 蜂群策略,Opus 4.6 不也很快跟上了 Agents Teams 功能吗?再加上 Claude Code 自身模型素质也很出色,输出速度和质量都在线。
除了贵,它自身一点毛病没有。
数据也能佐证这个选择:在海外市场,Claude Code 在编码领域的企业付费份额高达 54%;GLM 在国内企业中的占有率同样稳居前三。观众们都在用真金白银投票,我死磕 Claude Code 也算师出有名。
一个超级个体,不是只用一个AI,而是知道什么时候用哪个AI。就像一个好的项目经理,懂得给不同员工分配合适的任务。
四、总结:磨刀不误砍柴工
今天我们聊了一件事:选AI不是越贵越好,而是按需配置。
像招聘团队一样——CTO干CTO的活,高级工程师干高级工程师的活,实习生……算了,别用了。
兵器选好了,接下来该干什么?该看战场了。希望这篇结合个人实战体验的AI编程工具选型分析,能帮助你在云栈社区找到更多同路人,一起探索AI开发的新可能。
留言区聊聊:你现在主力用的是哪个AI编码工具?用下来感觉如何?有没有什么坑想吐槽的?