近日,Claude Code 负责人 Boris Cherny 与 Meta Dev Infra 团队产品总监进行了一场深度对谈。双方围绕 AI 编程工具的现状与演进、ROI 评估框架、Loops 自动化范式、Cowork 的非编码场景应用,以及 AI 时代工程师的角色转型等话题展开了探讨。
Boris Cherny 表示,现在他 100% 的代码都由 Claude 生成,而且大部分是在手机上完成的。仅从今年 3 月份算起,他就已经消耗了 80 亿个 Token。他透露,Anthropic 内部今年每位工程师的代码产出量增长了 8 倍。当代码 100% 由 AI 生成后,真正的瓶颈转移到了好点子的产生速度,继而延伸至产品经理、市场推广等上下游环节。
关于 Loops,他指出这是 AI Agent 提示 AI Agent 持续循环运行的自动化范式。他认为当前 Loops 所处阶段与一年半前的 AI Agent 领域相当。目前他约 30% 的代码通过 Loops 生成,代码审查、用户反馈处理、架构优化、测试清理等维护任务已全部纳入 Loop 持续执行,他仅需在事后审查。
在测试时计算方面,他指出 Transformer 及大语言模型的能力扩展方式,本质上是数据量、神经网络规模以及用于训练网络的计算量的函数。除了这三个传统扩展因子外,测试时计算是近年引入的第四个关键因子。它用来描述模型在推理阶段生成了多少个 Token,可以通过一些机制,让模型高效地生成更多 Token,从而实现更优的输出结果。目前有两条实现路径:一是算力投入设置,通过配置模型输出 Token 数量调节推理深度;二是动态工作流,由 Claude 编写在虚拟机中运行的编排程序,动态调度数十至数千个子 AI Agent 协同解决问题。两者在机制与适用场景上存在本质差异。
此外他表示,Fable 编写的代码与前端设计已超过他本人水平,但在产品感以及分布式系统设计方面仍有较大提升空间,预计年底前 AI 在这一领域将变得相当出色。
80 亿 Token 与一部手机
提问:今年你写了多少行代码,是你自己写的还是 Claude Code 写的?现在主要用手机还是电脑写代码?
Boris Cherny: 为了准备这次访谈我特意查了数据。我大概提交了 1700 个 PR,增加了 40 万行代码,删除了 25 万行代码。我试着统计了 Token 消耗量,遗憾的是部分数据已被清理,但仅从今年 3 月算起,我已经消耗了 80 亿个 Token。
自从 Opus 4.5 模型发布以来,我 100% 的代码都是由 Claude Code 编写的。至于在哪里写代码,如果是半年前你问我,我绝对想不到现在的答案。现在我大部分代码都是在手机上写的。半年前要是有人这么跟我说,我肯定觉得他疯了,但现在事实确实如此。
提问:公司该如何在性能更强但成本更高的模型与必须证明 Token 效率之间取得平衡?
Boris Cherny: 我每天都能与许多客户和潜在客户的公司交流。大家的关注点大致分为两类:看重成本,或是看重 ROI。从 ROI 的角度思考绝对是正确的框架,不能只盯着成本看,所有投入最终都是为了获得回报。
最成功的公司会向所有人发放 Token,不只是工程师,还包括产品经理、设计师和数据科学家。他们鼓励全公司进行探索,因为好主意往往来自你意想不到的人。改进流程或开发新产品的绝佳创意,可能就来自公司某个角落的会计,或是 CEO 从未听说过的营销人员。
因此要鼓励团队大胆尝试,最好的方法就是给大家发放 Token 并提供安全的试错环境。一旦发现了行之有效的内部应用场景,再去考虑如何控制成本,这种控制应该在后端而非前端进行。在 Claude Code 中,我们提供了基于席位的成本控制,还可以使用顾问模型,或者为整个公司更换模型、控制整体工作量上限,甚至根据部门或基于角色的访问控制来设定预算。方法非常多。
当代码 100% 都由 AI 编写时,该如何衡量回报?这就是难题所在。以前做 Dev Infra,如果一年生产力提升 2% 到 3% 就已经很了不起了,但现在我们看到的是成百上千倍的提升。在 Anthropic,今年每位工程师的代码产出量增长了 8 倍。我认为首先要实现 100% 代码由 Claude 编写,然后观察人均代码量提升幅度,最后要思考还有哪些瓶颈阻碍了发展。当工程师能快速产出大量代码时,瓶颈就变成了好点子。如何打破这些瓶颈,让公司更快孕育出好想法?这可能意味着引入更多产品经理或用户研究员,紧接着还要思考如何更快推向市场,在市场推广和营销端打破瓶颈。每家公司都处于这条采用曲线的不同阶段。
Loops 是炒作还是趋势?
提问:Loops 是下一个炒作周期,还是真实存在的趋势?能解释一下什么是 Loops,以及你平时如何使用它吗?
Boris Cherny: 两年前我们还在手动编写源代码,后来开始向 AI Agent 写代码过渡,现在我们正朝着 AI Agent 提示 AI Agent 来编写代码的阶段迈进。如果源代码是最基础的层面,相当于编程中的一个语句,那么编写代码的 AI Agent 就像是一个函数,而 Loops 就是高阶函数。这种抽象层级的不断提升,与从源代码到 AI Agent 的飞跃同等重要且规模相当。
对我来说,现在的 Loops 领域就像一年半以前的 AI Agent 领域。举个例子,我的很大一部分工作是代码审查。我可以手动审查,也可以设置一个 AI Agent 让它帮我审查。而 Loops 版本的做法是,让一个 AI Agent 在循环中持续运行,包揽所有代码审查工作。再比如,我会阅读 Threads 上的用户反馈,我可以让一个 AI Agent 在循环中每隔五到十分钟读取一次反馈,并自动提交修复问题的 PR。一年半以前我们还在第一阶段,现在已经迈入了第三阶段。我觉得很多任务都可以拆解成这样的 Loops。我个人大概有 30% 的代码是通过 Loops 生成的,如果刻意尝试,某些天甚至能达到 100%。
Cowork:与 Claude Code 同架构的非编码利器
提问:Anthropic 最近在 Cowork 上投入了大量精力,为什么该尝试 Cowork?最让你兴奋的应用场景有哪些,特别是非编码领域?
Boris Cherny: 试用 Cowork 很简单,下载 Claude 桌面应用就行,里面集成了聊天、Claude Code 和 Cowork,支持 macOS 和 Windows。Cowork 就是为非工程师准备的 Claude Code,底层逻辑依然是 Claude Code,并且使用了构建 Claude Code 的 Claude AI Agent SDK,完全是同一套东西。
它内置了更多安全护栏,拥有一个完整的虚拟机,具备复杂的隔离机制,接入了操作系统以防误删重要文件,还在防范提示词注入方面做了大量保护。
除了写代码,我把 Cowork 用在了所有非技术工作上。举个项目管理的例子,以前我们每天早上要开站会,大家挨个汇报进展。现在我利用 Cowork 在浏览器里打开一个电子表格,里面记录了本周的所有工作流。它会自动在 Slack 上给每一位工程师发消息询问最新进展。有趣的是,通常是工程师们的 Claude 代替他们回复,变成了 Claude 之间对话。Cowork 读取信息后会自动更新表格进度栏。这一切都是 Cowork 自动完成的,完全不需要繁杂设置。
还有一种更高级的用法。我让 Cowork 帮我预订所有行程,它会打开浏览器进入预订行程的旅游网站,自动填写信息并预订机票。现在我把它进一步自动化了, Cowork 会每天查看我的邮件,检查我在日历上接受的活动邀请。如果活动地点不在旧金山,它就会自动帮我预订机票和酒店,它甚至掌握了我对航班和酒店的所有偏好设置。我前段时间参加多个跨城市活动,所有往返机票和酒店全是它自动订好的,我全程根本没有操心。
Fable、模型选择与短板
提问:你是如何根据不同软件工程场景来选择模型的?Fable 在编程方面表现如何?
Boris Cherny: 从 Opus 4.8 到 Fable 的技术跨越,至少与去年 Opus 4.5 发布时同样震撼,这可能是模型能力上一次更为巨大的飞跃。Fable 具备对细节的洞察力和多维度的思考方式,这种思维模式与我身边最聪明的同事非常相似。它不再像个生硬工具,而是真正具备了深入剖析和解决问题的能力。它在代码调试中也大显身手,调试需要先建立假设,然后顺藤摸瓜寻找证据,Fable 能出色地完成这些任务。我交给它的每一个挑战,它基本上都能单样本解决,或者只需少量提示词。我已经没有难题可以难倒它了,团队里很多人也有同感。
不仅是 Claude Code,放眼整个 Anthropic,平均有 80% 到 90% 的代码由 Claude Code 编写,对越来越多内部团队来说已达到了 100%。关于模型选择,我用 Fable 处理所有事情。
提问:是因为 Anthropic 没有预算限制吗?
Boris Cherny: 在 Anthropic 我们确实会考虑 Token 使用量。我们每消耗一个 Token,就意味着无法将这个 Token 提供给客户,存在机会成本。核心还是投资回报率。考虑到 Fable 带来的 ROI,你可以结合顾问模型来使用它,或者默认用 Opus 并在需要时调用 Fable,这样或许能减少 50% 投入。我们有各种方法优化资源使用率,但需要运行评估来确保系统运作良好。
实际上从 ROI 角度看,虽然可能降低 50% 投入,但同时面临一千倍、一万倍甚至十万倍的提升回报机会。我的思路是直接使用最昂贵的模型,然后专注于思考如何从中挖掘更大价值。不要把眼光局限在削减成本上,这项技术普及还处于非常早期阶段,现在过多纠结成本为时尚早。我建议将绝大部分精力投入到提升产出回报上,当前技术带来的上升潜力远超削减成本省下的那点空间。
提问:Fable 目前有哪些难以解决的难题?
Boris Cherny: 我们的模型并非完美无缺,在很多方面仍需改进。其中之一就是产品感。目前我能构思出的产品创意依然优于 Fable,在创意生成方面它还没达到理想高度。
另一个领域是分布式系统设计。尽管 Fable 现在编写的代码已经比我写的更好,前端设计也比我的设计出色,但关于梳理需要哪些服务、如何组织架构、数据如何流动、如何考量负载因素等问题,在 分布式系统 设计方面我仍然远胜于 Fable。在这一领域 Fable 还有很大的提升空间。我不太喜欢做具体预测,但估计大概到今年年底,AI 在这方面就会变得相当出色。
团队协作瓶颈与工程师角色转型
提问:Claude Code 在优化团队协作方面采取了哪些举措?既然 AI Agent 已能包揽大部分编码工作,工程师应该把精力集中在哪里?
Boris Cherny: 关于团队协作,我们正紧锣密鼓地研发一系列新功能,希望能尽快带来好消息。在此期间,建议利用模型上下文协议 MCP 将 Claude Code 接入到 Slack、Teams 或任何正在使用的协作平台。
关于工程师的精力方向,写代码只占日常工作一部分,还要处理大量非编码任务,比如与客户沟通、构思创意、与设计师和产品经理碰撞想法、进行数据分析、规划产品方向以及与其他部门协调对齐。现阶段 AI 负责编写代码,人类负责向 AI 下达指令。如何下达准确的提示指令大有学问,你需要明确下一步做什么,进行市场调研并与团队深入沟通。
写代码占用的时间比例其实一直很少。Claude Code 就像是一个喷气背包,随着 AI 不断进化,背包里好像装配了越来越多的推进器让我飞得越来越快。到了现阶段,我唯一的瓶颈就是给出提示指令的速度,现在大部分指令下达都是通过语音直接跟 Claude 交流完成。真正的瓶颈在于能否想出好点子,写代码本身已不再是瓶颈。
代码审查与安全审查的新解法
提问:随着 AI 生成代码大爆发,代码审查环节面临巨大压力,传统人工审查模式可能正在崩溃。Anthropic 如何应对这些下游影响?下一件具有颠覆意义的大事是什么?
Boris Cherny: 编写代码的最终目的是部署到生产环境,期望推动商业指标。过去最大的瓶颈无疑是写代码,如今这道坎已跨过,下一个阻碍就是代码审查。代码产出海量增加,总得有人审阅。我们的解法是打造一款专门应对此问题的产品——Claude Code Review。它与市面上其他产品不同,因为它要昂贵得多,高昂的原因在于消耗了海量 Token 来实现代码审查的完全自动化。当我打开一个合并请求时,基本可以确信所有 Bug 已被排除,它能拦截 98% 到 99% 的错误。我不再充当找 Bug 的角色,只需关注核心问题:这个合并请求有存在的必要吗?这是一个好的设计方案吗?
紧随其后的瓶颈是安全审查。大量代码合入必须以安全为前提,AI Agent 与人类一样也会在无意间引入安全漏洞。确保代码绝对安全的答案是 Claude Security,这同样是我们为突破内部瓶颈而研发的利器。它每周定期运行,全面扫描所有代码库,自主发现并修复安全隐患。我们每次发布重大新功能前都会进行红蓝对抗测试和渗透测试,Claude Security 甚至能捕捉到专业渗透测试人员漏掉的隐患。我们将这一能力开放给客户,让大家受益于同款安全产品。
如今我们在思考下一个瓶颈会出现在哪里,可能是如何高效地产出创意,也可能是如何进一步优化持续集成系统。举个例子,我发现持续集成跑得有些慢,于是启动 Claude Code 并给出指令,要求它分析数据集,查看真实持续集成的耗时情况并进行提速优化。它采用动态工作流,动态协调和指挥几十甚至几千个子 AI Agent,消耗了几百万个 Token 并在后台运行了几个小时,直接生成了四个代码合并请求,成功将持续集成时间缩短了一半。放在过去要完成这些分析和优化,恐怕得耗费几周甚至几个月。
关于未来规划,我们的规划周期是以周或月为单位,根本没有所谓的年度计划。这个领域呈指数级发展的速度非常惊人,只能努力跟上节奏。从宏观方向看,目标始终是打造最强大的 AI Agent,打通所有工作场景边界。无论团队在什么平台上工作,Claude 都能无缝融入。我们致力于提供独一无二的体验,让用户能以其他产品无法实现的方式深度感受新 AI 带来的能力。Sonnet 3.5 在代码生成领域迈出了一大步,而 Claude Code 应运而生,抛弃传统的源代码交互方式,直接使唤一个 AI Agent 即可。展望未来,它在处理长时间运行的复杂任务方面将变得更加得心应手,生成的代码将更加安全可靠、质量更高,同时在目标对齐方面也会做得更完美。
Loops 做代码维护、算力投入设置与动态工作流
提问:在大型项目中,编写代码并不是最大难题,维护才是。代码长期来看该如何维护?工作流和 Loops 之间有什么区别?
Boris Cherny: 我最近一直在尝试利用 Loops 进行代码维护。你可以让 Claude Code 在 Loop 中持续运行,去审视代码库并优化架构,或者找出测试套件不稳定的部分加以改进,寻找无用的测试用例并直接删除,亦或是寻找重复的抽象逻辑并将它们统一。这些都是我目前正在运行的 Loop 任务,我只需直接审查 PR,在 AI 做出更改后才去检查结果。只要使用的是最新模型,效果通常会非常好。如果生成结果不够理想,只需要对它说“寻找机会来提升代码库的质量”,再补上一句指令:“使用工作流。”
- 算力投入设置:在 Claude 模型中,包含低投入、中等、高投入、超高投入以及最大投入等选项,本质上是一种配置方式,用于设定希望模型输出的 Token 数量来调节测试时计算行为,Token 越多结果越好。
- 动态工作流:利用 Claude 编写一个在虚拟机中运行的小程序,并由它来编排其他 Claude 模型协同解决问题。本质上是让 Claude 启动数十、数百甚至上千个 AI Agent 来完成工作。
人工审批反而降低安全性
提问:如何防止工程师变得懒惰并全盘接受 Claude 输出的所有内容?
Boris Cherny: 这个问题包含两个层面。
第一部分是如何确保模型输出质量足够高,工程师都在进行正确操作。我们的思路是让 Claude 替工程师做正确的事。从一开始我们就为 Claude Code 设定了权限提示词,任何时候 Claude 想在电脑上执行命令,都会询问是否允许。但我们发现随着时间推移,人会变得越来越懒。就我而言,后来只是在机械地点击同意,根本没有认真阅读命令。安全团队指出了这一点:虽然引入人工干预的初衷是为提高安全性,但实际上却在损害安全性,因为人们出现了提示词疲劳,不看细节就直接通过。
这一痛点促使我们开发了自动模式,这是 Claude Code 中的全新权限模式。它将每一个权限请求路由给一个专属模型,由该模型根据对话上下文自动判断是批准还是拒绝。这不仅大幅提升了安全性,数据表明,由于消除了提示词疲劳,自动模式的安全性优于默认的人工权限模式,更重要的是切实为工程师减负了。它解锁了让 AI Agent 长时间运行的能力,现在可以让 Claude 连续运行几个小时甚至几天。自动模式的成功落地背后是多年研究支撑,Claude 模型基本上已不再容易受到提示词注入的攻击,加上目前大规模部署的提示词注入分类器,模型本质上已对这类攻击免疫了。这正是我们能自信推出自动模式的底气。
第二部分是,当工程师不再编写代码时,日常感受是怎样的?如何保持学习并让自己不脱节?我发现 Claude Code 中的输出风格功能对此非常有效。有探索式输出风格,每当 Claude 做出更改时,都会主动向工程师解释当前架构如何运作,讲解语言机制,拆解代码库各部分原理;还有教学式输出风格,主要为非程序员准备,它会在非常基础的层面讲解某种语言的运作方式,不会直接替用户修改代码,而是手把手教导如何实现。合理利用输出风格并高频度使用 Claude,是一个极其强大的学习工具,能帮助有经验的工程师在技术栈迭代时,特别是接触全新编程语言时,依然能清晰地掌控全局。
在 AI 编程工具快速演进的当下,理解技术边界与人的价值重塑同等重要。欢迎在 云栈社区 与更多开发者探讨 AI 时代的工程实践。
文章来源:数字开物