云栈社区»论坛 › 站务中心「 Forum Service 」 › AI自己造AI？深度解密Claude Code、Codex、Cursor内部自进化实践 ...

发回帖发新帖

4117 积分	0 好友	539 主题

发消息

AI自己造AI？深度解密Claude Code、Codex、Cursor内部自进化实践

发表于 2026-5-25 04:01:35 | 查看: 128| 回复: 0

我是潮局。

最近翻完 Anthropic 自己写的两篇内部使用记录，越看越上头。

先讲一个画面。

Anthropic 的 Data Infrastructure 团队，某天晚上 Kubernetes 集群突然不再调度任何新的 Pod。生产线卡住，整个团队被叫起来。一群工程师围着屏幕，盯着 Google Cloud 的控制台，一层菜单一层菜单地翻——你知道那种感觉，不知道问题在哪儿，时间又在烧。

他们后来做了一件听起来很怪的事：把控制台的截图直接喂给 Claude Code，让它顺着 UI 一层一层往下指——「下一步点哪个菜单」。最后定位到 Pod IP 地址池被耗光了。Claude 接着把扩 IP 池、绑定到 cluster 的命令也一并写了出来。整个过程，比常规人肉排障省了 20 分钟。

坦率的讲，看到这段我先愣了一下。

这不是某个普通公司在用 Claude，这是 Anthropic——做出 Claude 的那群人，在用自己造的工具救自己的火。一个回路。AI 公司，正在用自己的 AI，造下一代 AI。

8 个团队，8 种不同的「干活方式」

Anthropic 那篇 blog 的有意思之处，是它没讲「Claude Code 有多强」，而是逐个团队拆给你看。

先看几条结实的：

Security Engineering 团队：以前查一个生产事故，要把 stack trace 抓出来，对着代码一层层翻控制流，平均 10–15 分钟。现在他们把 stack trace + 文档一起丢给 Claude Code，由它去顺藤摸瓜。同样的诊断，时间被压到原来的三分之一。

Inference 团队：很多成员没有 ML 背景，遇到模型相关函数得 Google 一小时。他们现在让 Claude 解释，10–20 分钟就能搞清楚——研究时间砍掉 80%。

Product Design 团队：这事儿就更有意思。设计师把 Figma 文件直接喂给 Claude Code，让它自己去写代码、跑测试、迭代。一个让我印象深的案例：他们让 Claude 给自己写 Vim 键位绑定——人在中间几乎没什么干预。

Data Scientists：他们不会写 TypeScript，但会用 Claude Code 写整个 React 应用——用来可视化 RL 模型的训练表现。一次 prompt 不够就改改再来一次。代码他们看不懂，但应用能跑。

图：Anthropic 内部围绕 Claude Code 形成的 8 类团队用法

最让我意外的，是「不写代码的人」

前面这几个团队都还算工程沾边。真正让我停下来想了很久的，是另外几条。

法务团队，做了一个原型版的「电话树」系统——员工有事，不知道该联系哪个律师，就用这个工具自动路由。这是一个法务部门，自己写出来的系统，没找工程师。

市场增长团队，做了一个 agentic workflow，专门处理 CSV 文件——里面是几百条已经投放的广告。流程是这样的：先识别出表现差的，再生成新版本，还得严格遵守字符上限。他们用了两个分工子智能体串成一条流水线，几百条广告几分钟就能批量重写一遍。原本要好几个小时。

他们还顺手做了一个 Figma 插件——识别画板，自动替换标题和描述，一键生成 100 个广告变体。原来人工 copy-paste 半天的活，现在一批 0.5 秒。

说真的，这几条让我意识到：「会写代码」和「能造工具」之间那道墙，已经被磨掉了一大块。Anthropic blog 里那句话写得直白——「agentic 编程不只是在加速传统开发，它是在把『技术工作』和『非技术工作』之间的边界给溶掉了」。

图：能描述问题的人，正在变成能造工具的人

你想想看，三年前你跟一个市场部同事说「你来做个 Figma 插件」，他大概率会摆手。三年后，他不仅做出来了，还能复用一套子智能体调度逻辑。这条曲线变得是真挺快的。

露出来的「使用守则」：CLAUDE.md、子智能体、Hooks

和那篇内部分享对照着看的，是 Anthropic 同时放出来的官方 Best Practices 文档。它把 Claude Code 在工业级场景中怎么被用，写得相当具体。

几个关键词，挑出来聊聊：

CLAUDE.md。这是 Anthropic 推荐的「项目记忆」格式——一个放在仓库根目录的 markdown 文件，里面写清楚项目的命令、惯例、风险约束。新人加入团队不用读完整本 wiki，把 CLAUDE.md 喂给 Claude，Claude 自己就能知道这个仓库怎么跑、怎么测、哪些目录不能碰。

Infrastructure 团队的数据科学家，新人入职第一件事就是把整个代码库喂给 Claude Code，再让它去识别相关的 CLAUDE.md，解释数据管道依赖，画出哪些上游源头喂入哪些 dashboard。这事儿过去要靠一个叫 data catalog 的内部工具来做，现在被 Claude 一并接管了。

图：Claude Code 的项目记忆是一套四层叠加的上下文

子智能体（Subagents）。Anthropic 的指南里反复强调：复杂任务别让一个 Claude 闷头干，开多个子智能体，每个有独立的上下文、独立的工具权限。一个负责写代码，一个负责审，一个负责测——分工。这就是 Writer/Reviewer 模式。市场团队那个广告流水线，背后就是这个套路。

Hooks。这个我觉得是这套体系里最容易被低估的设计。Hooks 的本质是：当 Claude 做了某件事（比如写文件、提交代码），自动触发一段你定义的脚本。它把那些不应该靠模型判断、必须每次都做的事——比如格式化、跑 lint、通知——从 prompt 里剥离出去，交给确定性的脚本。模型只管「智力活」，琐事让 Hooks 兜底。

Product Design 团队那条「自动 PR 评论」就是典型——Claude 写完代码自动通过 GitHub Actions 触发审查 hook，格式问题、测试用例重构都不用人盯。

Skills。Skills 是 Anthropic 最近推的另一个原语——把一类高频任务封装成可复用的「技能模块」，放在 .claude/skills/ 下。一个公司可以在内部沉淀几十上百个 skill，新人加入就能继承团队的「集体肌肉记忆」。

不止是 Anthropic：OpenAI 和 Cursor 也在做同一件事

回到我开头那句话——AI 公司，正在用自己的 AI 造下一代 AI。这不是 Anthropic 一家。

先讲 Cursor，因为它最极端。

Cursor 内部跑过一个叫 FastRender 的实验——让自家的 agent 群从零搭一个浏览器引擎。底子是 Servo + Taffy + QuickJS，剩下全是 agent 写的。

六天，130 万行代码。「最后你真的能在地址栏里输 google.com，它真的能渲染出来。」Cursor 的工程师 Wilson Lin 形容这套调度时用了一个词：essentially unlimited token budget——成百上千个 agent 同时往一个仓库里写，把代码逼到「99% 可编译」的程度。

当然，故事另一面也不浪漫。SIG（Software Improvement Group）跑了一遍这套代码的代码质量评分——可维护性 1.3/5，架构 2.1/5。一个外部研究者把它形容成「a tangle of spaghetti」，意思你懂的。但即便如此，他们也承认这是「在一个极难的领域里，相当令人印象深刻的 Agentic AI 实验」。

Cursor 的 COO Jordan Topoleski，在 NTT Upgrade 一次圆桌上讲了一句让我反复回味的话——「我们其实是一家『用 Cursor 造 Cursor』的内部工具公司」。他还提到，过去一个季度，Cursor 自家代码 70%–75% 是 AI 写的，客户那边 AI 占比也从一年前的 6% 涨到了 60% 以上。一位保险行业 CIO 透露，他们公司的代码周产量从 15 万行直接被推到 80 万行。

图：Cursor 内部 FastRender 实验的尺度——速度极致 × 质量代价

再看 OpenAI 的 Codex。 OpenAI 最近放出来一份内部使用记录，列了七种用法——代码理解、重构与迁移、性能优化、提升测试覆盖率、提升开发速度、保持专注高效、探索与创意构思。每一条后面都有一两句让我印象很深的内部引述。

安全团队的工程师说：「每当修复一个漏洞，我都会用询问模式扫一遍，看代码库里还有没有同类问题。」

前端团队的同事讲他们怎么做老接口迁移：「Codex 把所有旧版 getUserById() 全替换成了新服务模式，还顺手开了 PR——原本几个小时的活，现在几分钟。」

基础设施团队那条更狠——「我夜里让 Codex 处理覆盖率偏低的那几个模块，第二天早上醒来就有可直接合并的单元测试 PR 在那。」

还有一条，我觉得几乎可以做朋友圈金句：「我一整天都在开会，依旧合并了 4 个 PR，全靠 Codex 在后台自动跑。」——这画面你品一品，会议室里坐着的人，PR 是身后那个 agent 帮他写的。

OpenAI 在自家文档里推荐的最佳实践，跟 Anthropic 几乎是一个模子刻的——从询问模式（ask mode）开始、像写 GitHub Issue 一样组织提示、把任务队列当待办清单，以及最关键的——AGENTS.md 文件提供持续上下文。

看到 AGENTS.md 那一刻我笑了——这不就是 OpenAI 版的 CLAUDE.md 吗？两家公司在自家工具里，不约而同把项目记忆做成了一个根目录的 markdown 文件。形状一模一样。

三家公司、三套工具，但操作的形状是一致的：把内部最复杂的工程任务，交给自己造的 AI 编程工具去跑，再从跑过的真实场景里反向迭代产品。Anthropic 之前公开过另一组数字——他们用 9 个 Claude Opus 子智能体跑对齐研究，5 天就追平了 2 个研究员花 7 天能补上 23% 性能差距的那个空缺，9 智能体那一组的恢复率冲到了 97%。一个特别经典的递归。产品的最终形态，是被它自己塑造出来的。

图：AI 工具的下一代，是被它当下的版本塑造出来的

普通人能从这里抠出什么？

看完这两份材料，我自己的几个体会，写下来跟你分享：

第一，把 AI 当作「思考伙伴」而不是「代码生成器」。 Anthropic 最后那段总结写得特别好——「最成功的团队，把 Claude Code 当作 thought partner，而不是 code generator」。这两件事的差距很大。前者你们俩是搭档，后者你只是把它当一台打字机。Product Engineering 那句「first stop」，就是这种关系。

第二，写下来，比试出来更重要。 CLAUDE.md 这件事看似很工程，但精神内核是——你愿不愿意把团队的隐性知识沉淀成文字。绝大多数公司的「集体肌肉记忆」都散落在 Slack 对话、几个老员工的脑子里。把它写成 Claude 能读的格式，就是做一次知识的盘库。

第三，模型该想，脚本该跑——分清楚。 Hooks 这个机制提醒我们：不要把所有事都丢给模型。判断、推理、权衡——给模型；格式化、通知、健康检查——交给确定性脚本。混在一起既慢又贵还不稳。

第四，「不是工程师」不再是借口。 那个法务团队的电话树、市场团队的 Figma 插件——回到三年前是不可想象的。如果你的工作里有重复劳作、CSV 处理、表单整合——这些事，现在用 Claude Code 几个小时就能搭出原型。

我自己也还在摸索。最近我把日常的几条工作流写成了 skill，丢到 .claude/skills/ 里——开了几个月之后回头看，那个目录已经像一本随身的工具箱。

小结

回到开头那个 Kubernetes 故障的画面——一群顶尖工程师，把控制台截图喂给 Claude，让它带路找答案。这画面里有种轻盈感。

他们不是因为不够聪明才求助 Claude，而是因为太聪明了，知道时间应该花在哪。

Anthropic 这两份材料的真正价值，不是「Claude Code 多强」，而是把一群已经摸到第二个阶梯的人，做事的方式拍下来给大家看。看完之后，你会发现 AI 编程这件事，已经不是「会不会用」的问题了，是「用到哪一层」的问题。

从 Anthropic 到 OpenAI 到 Cursor，他们都在做的一件事：让自己的 AI，去帮自己造下一代 AI。这条递归一旦跑起来，进步速度就不再是线性的了。

你身边有没有「不写代码的人」开始用 AI 造工具的例子？或者你自己已经在路上？在云栈社区，我们见证着越来越多的非技术背景的人，正借助这些新工具打破能力的边界。

来源：

Anthropic Blog · How Anthropic teams use Claude Code（2025-07-24）
https://claude.com/blog/how-anthropic-teams-use-claude-code
Claude Code Documentation · Best Practices
https://code.claude.com/docs/en/best-practices
OpenAI · How OpenAI uses Codex
https://openai.com/zh-Hans-CN/business/guides-and-resources/how-openai-uses-codex/
R&D World · Cursor is using AI to build the next Cursor（Brian Buntz，2026-04-18）
https://www.rdworldonline.com/cursor-is-using-ai-to-build-the-next-cursor-while-grappling-with-industrial-scale-code-creation/

上一篇：RAG已死？字节面试官用grep反问，才发现检索选型关键
下一篇：备份文件泄露到 Webshell 获取的渗透实战记录

Claude Code, Codex, Cursor, AI编程, 自进化系统