我是潮局。
最近翻完 Anthropic 自己写的两篇内部使用记录,越看越上头。
先讲一个画面。
Anthropic 的 Data Infrastructure 团队,某天晚上 Kubernetes 集群突然不再调度任何新的 Pod。生产线卡住,整个团队被叫起来。一群工程师围着屏幕,盯着 Google Cloud 的控制台,一层菜单一层菜单地翻——你知道那种感觉,不知道问题在哪儿,时间又在烧。
他们后来做了一件听起来很怪的事:把控制台的截图直接喂给 Claude Code,让它顺着 UI 一层一层往下指——「下一步点哪个菜单」。最后定位到 Pod IP 地址池被耗光了。Claude 接着把扩 IP 池、绑定到 cluster 的命令也一并写了出来。整个过程,比常规人肉排障省了 20 分钟。
坦率的讲,看到这段我先愣了一下。
这不是某个普通公司在用 Claude,这是 Anthropic——做出 Claude 的那群人,在用自己造的工具救自己的火。一个回路。AI 公司,正在用自己的 AI,造下一代 AI。
8 个团队,8 种不同的「干活方式」
Anthropic 那篇 blog 的有意思之处,是它没讲「Claude Code 有多强」,而是逐个团队拆给你看。
先看几条结实的:
Security Engineering 团队:以前查一个生产事故,要把 stack trace 抓出来,对着代码一层层翻控制流,平均 10–15 分钟。现在他们把 stack trace + 文档一起丢给 Claude Code,由它去顺藤摸瓜。同样的诊断,时间被压到原来的三分之一。
Inference 团队:很多成员没有 ML 背景,遇到模型相关函数得 Google 一小时。他们现在让 Claude 解释,10–20 分钟就能搞清楚——研究时间砍掉 80%。
Product Design 团队:这事儿就更有意思。设计师把 Figma 文件直接喂给 Claude Code,让它自己去写代码、跑测试、迭代。一个让我印象深的案例:他们让 Claude 给自己写 Vim 键位绑定——人在中间几乎没什么干预。
Data Scientists:他们不会写 TypeScript,但会用 Claude Code 写整个 React 应用——用来可视化 RL 模型 的训练表现。一次 prompt 不够就改改再来一次。代码他们看不懂,但应用能跑。
图:Anthropic 内部围绕 Claude Code 形成的 8 类团队用法
最让我意外的,是「不写代码的人」
前面这几个团队都还算工程沾边。真正让我停下来想了很久的,是另外几条。
法务团队,做了一个原型版的「电话树」系统——员工有事,不知道该联系哪个律师,就用这个工具自动路由。这是一个法务部门,自己写出来的系统,没找工程师。
市场增长团队,做了一个 agentic workflow,专门处理 CSV 文件——里面是几百条已经投放的广告。流程是这样的:先识别出表现差的,再生成新版本,还得严格遵守字符上限。他们用了两个分工子智能体串成一条流水线,几百条广告几分钟就能批量重写一遍。原本要好几个小时。
他们还顺手做了一个 Figma 插件——识别画板,自动替换标题和描述,一键生成 100 个广告变体。原来人工 copy-paste 半天的活,现在一批 0.5 秒。
说真的,这几条让我意识到:「会写代码」和「能造工具」之间那道墙,已经被磨掉了一大块。Anthropic blog 里那句话写得直白——「agentic 编程不只是在加速传统开发,它是在把『技术工作』和『非技术工作』之间的边界给溶掉了」。
图:能描述问题的人,正在变成能造工具的人
你想想看,三年前你跟一个市场部同事说「你来做个 Figma 插件」,他大概率会摆手。三年后,他不仅做出来了,还能复用一套子智能体调度逻辑。这条曲线变得是真挺快的。
露出来的「使用守则」:CLAUDE.md、子智能体、Hooks
和那篇内部分享对照着看的,是 Anthropic 同时放出来的官方 Best Practices 文档。它把 Claude Code 在工业级场景中怎么被用,写得相当具体。
几个关键词,挑出来聊聊:
CLAUDE.md。这是 Anthropic 推荐的「项目记忆」格式——一个放在仓库根目录的 markdown 文件,里面写清楚项目的命令、惯例、风险约束。新人加入团队不用读完整本 wiki,把 CLAUDE.md 喂给 Claude,Claude 自己就能知道这个仓库怎么跑、怎么测、哪些目录不能碰。
Infrastructure 团队的数据科学家,新人入职第一件事就是把整个代码库喂给 Claude Code,再让它去识别相关的 CLAUDE.md,解释数据管道依赖,画出哪些上游源头喂入哪些 dashboard。这事儿过去要靠一个叫 data catalog 的内部工具来做,现在被 Claude 一并接管了。
图:Claude Code 的项目记忆是一套四层叠加的上下文
子智能体(Subagents)。Anthropic 的指南里反复强调:复杂任务别让一个 Claude 闷头干,开多个子智能体,每个有独立的上下文、独立的工具权限。一个负责写代码,一个负责审,一个负责测——分工。这就是 Writer/Reviewer 模式。市场团队那个广告流水线,背后就是这个套路。
Hooks。这个我觉得是这套体系里最容易被低估的设计。Hooks 的本质是:当 Claude 做了某件事(比如写文件、提交代码),自动触发一段你定义的脚本。它把那些不应该靠模型判断、必须每次都做的事——比如格式化、跑 lint、通知——从 prompt 里剥离出去,交给确定性的脚本。模型只管「智力活」,琐事让 Hooks 兜底。
Product Design 团队那条「自动 PR 评论」就是典型——Claude 写完代码自动通过 GitHub Actions 触发审查 hook,格式问题、测试用例重构都不用人盯。
Skills。Skills 是 Anthropic 最近推的另一个原语——把一类高频任务封装成可复用的「技能模块」,放在 .claude/skills/ 下。一个公司可以在内部沉淀几十上百个 skill,新人加入就能继承团队的「集体肌肉记忆」。
不止是 Anthropic:OpenAI 和 Cursor 也在做同一件事
回到我开头那句话——AI 公司,正在用自己的 AI 造下一代 AI。这不是 Anthropic 一家。
先讲 Cursor,因为它最极端。
Cursor 内部跑过一个叫 FastRender 的实验——让自家的 agent 群从零搭一个浏览器引擎。底子是 Servo + Taffy + QuickJS,剩下全是 agent 写的。
六天,130 万行代码。「最后你真的能在地址栏里输 google.com,它真的能渲染出来。」Cursor 的工程师 Wilson Lin 形容这套调度时用了一个词:essentially unlimited token budget——成百上千个 agent 同时往一个仓库里写,把代码逼到「99% 可编译」的程度。
当然,故事另一面也不浪漫。SIG(Software Improvement Group)跑了一遍这套代码的代码质量评分——可维护性 1.3/5,架构 2.1/5。一个外部研究者把它形容成「a tangle of spaghetti」,意思你懂的。但即便如此,他们也承认这是「在一个极难的领域里,相当令人印象深刻的 Agentic AI 实验」。
Cursor 的 COO Jordan Topoleski,在 NTT Upgrade 一次圆桌上讲了一句让我反复回味的话——「我们其实是一家『用 Cursor 造 Cursor』的内部工具公司」。他还提到,过去一个季度,Cursor 自家代码 70%–75% 是 AI 写的,客户那边 AI 占比也从一年前的 6% 涨到了 60% 以上。一位保险行业 CIO 透露,他们公司的代码周产量从 15 万行直接被推到 80 万行。
图:Cursor 内部 FastRender 实验的尺度——速度极致 × 质量代价
再看 OpenAI 的 Codex。 OpenAI 最近放出来一份内部使用记录,列了七种用法——代码理解、重构与迁移、性能优化、提升测试覆盖率、提升开发速度、保持专注高效、探索与创意构思。每一条后面都有一两句让我印象很深的内部引述。
安全团队的工程师说:「每当修复一个漏洞,我都会用询问模式扫一遍,看代码库里还有没有同类问题。」
前端团队的同事讲他们怎么做老接口迁移:「Codex 把所有旧版 getUserById() 全替换成了新服务模式,还顺手开了 PR——原本几个小时的活,现在几分钟。」
基础设施团队那条更狠——「我夜里让 Codex 处理覆盖率偏低的那几个模块,第二天早上醒来就有可直接合并的单元测试 PR 在那。」
还有一条,我觉得几乎可以做朋友圈金句:「我一整天都在开会,依旧合并了 4 个 PR,全靠 Codex 在后台自动跑。」——这画面你品一品,会议室里坐着的人,PR 是身后那个 agent 帮他写的。
OpenAI 在自家文档里推荐的最佳实践,跟 Anthropic 几乎是一个模子刻的——从询问模式(ask mode)开始、像写 GitHub Issue 一样组织提示、把任务队列当待办清单,以及最关键的——AGENTS.md 文件提供持续上下文。
看到 AGENTS.md 那一刻我笑了——这不就是 OpenAI 版的 CLAUDE.md 吗?两家公司在自家工具里,不约而同把项目记忆做成了一个根目录的 markdown 文件。形状一模一样。
三家公司、三套工具,但操作的形状是一致的:把内部最复杂的工程任务,交给自己造的 AI 编程工具去跑,再从跑过的真实场景里反向迭代产品。Anthropic 之前公开过另一组数字——他们用 9 个 Claude Opus 子智能体跑对齐研究,5 天就追平了 2 个研究员花 7 天能补上 23% 性能差距的那个空缺,9 智能体那一组的恢复率冲到了 97%。一个特别经典的递归。产品的最终形态,是被它自己塑造出来的。
图:AI 工具的下一代,是被它当下的版本塑造出来的
普通人能从这里抠出什么?
看完这两份材料,我自己的几个体会,写下来跟你分享:
第一,把 AI 当作「思考伙伴」而不是「代码生成器」。 Anthropic 最后那段总结写得特别好——「最成功的团队,把 Claude Code 当作 thought partner,而不是 code generator」。这两件事的差距很大。前者你们俩是搭档,后者你只是把它当一台打字机。Product Engineering 那句「first stop」,就是这种关系。
第二,写下来,比试出来更重要。 CLAUDE.md 这件事看似很工程,但精神内核是——你愿不愿意把团队的隐性知识沉淀成文字。绝大多数公司的「集体肌肉记忆」都散落在 Slack 对话、几个老员工的脑子里。把它写成 Claude 能读的格式,就是做一次知识的盘库。
第三,模型该想,脚本该跑——分清楚。 Hooks 这个机制提醒我们:不要把所有事都丢给模型。判断、推理、权衡——给模型;格式化、通知、健康检查——交给确定性脚本。混在一起既慢又贵还不稳。
第四,「不是工程师」不再是借口。 那个法务团队的电话树、市场团队的 Figma 插件——回到三年前是不可想象的。如果你的工作里有重复劳作、CSV 处理、表单整合——这些事,现在用 Claude Code 几个小时就能搭出原型。
我自己也还在摸索。最近我把日常的几条工作流写成了 skill,丢到 .claude/skills/ 里——开了几个月之后回头看,那个目录已经像一本随身的工具箱。
小结
回到开头那个 Kubernetes 故障的画面——一群顶尖工程师,把控制台截图喂给 Claude,让它带路找答案。这画面里有种轻盈感。
他们不是因为不够聪明才求助 Claude,而是因为太聪明了,知道时间应该花在哪。
Anthropic 这两份材料的真正价值,不是「Claude Code 多强」,而是把一群已经摸到第二个阶梯的人,做事的方式拍下来给大家看。看完之后,你会发现 AI 编程这件事,已经不是「会不会用」的问题了,是「用到哪一层」的问题。
从 Anthropic 到 OpenAI 到 Cursor,他们都在做的一件事:让自己的 AI,去帮自己造下一代 AI。这条递归一旦跑起来,进步速度就不再是线性的了。
你身边有没有「不写代码的人」开始用 AI 造工具的例子?或者你自己已经在路上?在 云栈社区,我们见证着越来越多的非技术背景的人,正借助这些新工具打破能力的边界。
来源:
- Anthropic Blog · How Anthropic teams use Claude Code(2025-07-24)
https://claude.com/blog/how-anthropic-teams-use-claude-code
- Claude Code Documentation · Best Practices
https://code.claude.com/docs/en/best-practices
- OpenAI · How OpenAI uses Codex
https://openai.com/zh-Hans-CN/business/guides-and-resources/how-openai-uses-codex/
- R&D World · Cursor is using AI to build the next Cursor(Brian Buntz,2026-04-18)
https://www.rdworldonline.com/cursor-is-using-ai-to-build-the-next-cursor-while-grappling-with-industrial-scale-code-creation/