当下 AI Agent 的能力越来越强,任务越来越复杂,运行时间也越来越长。这也就意味着,我们与 AI 的协作方式必须随之改变。
在近期 Claude 官方播客的一期节目中,Anthropic 内部工程师 Arnaud Doko 分享了如何改变与 Claude Code 的协作方式,从而获取更多价值。由于长时间运行的 Agent 一旦做错事,海量 Token、时间与算力便会直接浪费,因此,避免资源误耗的核心就在于从任务起始阶段就建立更高效的工作流程。

Arnaud 在讲座中以一个账单均摊(bill splitting)应用的构建为实操案例,细致地展示了三种高效避坑的新协作方式。这三种方法分别是:让 Claude 像面试官一样通过连续提问精准提取需求;改用人类可读性更强的 HTML 格式作为 AI 规范说明书(spec),而非传统的 Markdown;以及将“验证”内置于产品开发全流程,使其成为 Agent 的原生特性。

一、让 Claude 主动挖掘你的真实意图
模型正变得越来越强大,因此我们应当接受这样一个事实:模型在从我们这里提取需求方面,可能比我们自己在定义需求时做得更好。需求往往潜藏在你的潜意识里,就像用户一样,你可能在看到成品时才知道自己想要什么。Claude 或许比你更擅长提取出你真正想要和需要的东西,而不是由你进行事无巨细的指定。
不好的提示词是什么样的?就是那种模糊的指令,比如“把它做得更好”或者“不要犯错”。而好的提示词则会鼓励 Claude 从你这里提取具体的细节。你不必过度指定最终的产出,而应指定你感兴趣的领域。例如,关注目标受众,或者提出开放式问题。这样就能促使 Claude 进行迭代式的采访,从而发掘出边缘案例与未知因素。

具体操作时,你需要提示 Claude 去使用 ask_user_question (询问用户问题)工具。当你明确引用该工具时,便会触发这一工作流程。你设计的提示词越精准,得到的结果就越理想。在不断的问答中,Claude 会越来越擅长从你这里提取出真正的核心诉求,从而生成一份可靠的执行规范。

二、告别冗长 Markdown:HTML 是更省 Token 的规范格式
以往,我们通常使用 Markdown 文件让 Claude 理解和规划任务。虽然 Markdown 常被视为 AI 原生软件开发生命周期的“通用语言”,但如今这种格式开始显得受限:文件动辄变得极长,当超过大约 200 行时,无论是人类自己还是同事,往往都不太想去阅读它。
相比之下,HTML 文件更紧凑,信息密度高得多,也更符合人类工程学。它能让你直观地感受到产品未来的模样,你甚至可以配合截图来向 Claude 提供反馈。尤其是在进行前端开发时,用语言精准表达“这个东西有点偏了”或“这里没对齐”非常困难,但通过截图交给具备强大视觉能力的模型,反而能让问题迎刃而解。

例如,可以让 Claude 针对同一个应用生成几种不同风格的 HTML 原型。如下图的四种设计方向,从收据风格到编辑风格,再到粗野主义街机风以及东京金融科技风。通过并排比较不同的 HTML 设计稿,你可以快速地横向对比并做出选择。这绝对比仅从一个 Markdown 文件中去凭空推测应用长什么样要高效得多。

有人可能会问:“用 HTML 编写规范难道不是更消耗 Token 吗?”答案通常是否定的。从长远来看,拥有一个结构良好、内涵丰富的 HTML 规范,虽然单次生成的 Token 消耗较大,但整体的迭代次数会显著减少。

三、将“验证”变成 Agent 开发的原生能力
让验证成为产品本身的原生属性,这样 Agent 既可以与人类协同驱动,也可以进行无头(headless)自动化运行。
核心思路是合理地进行模块化,并将代码按可独立测试的方式分组。例如,以下面这个 React 编写的待办事项(to-do)应用为例。组件本身会将它的状态发布到 DOM 中,形成一个机器可读的 DOM 契约(DOM contract)。

你可以在已定义的测试之外,验证一切是否运作正常。这里有三种实现模式:
- 人类可读模式:通过仪表盘直接查看验证状态。
- Agent 驱动模式:让 Claude 单独执行验证。通过 Playwright MCP 等工具,Agent 可以直接读取 DOM 中的数据契约,运行验证,甚至记录验证过程。
- 无头自动化模式:通常在 CI(持续集成)中使用,直接通过 CLI(命令行界面)运行测试矩阵,例如运行
bun run verify。

如果破坏了 DOM 契约(而不是写坏应用本身),底部的验证矩阵就会一大片飘红。此时,你可以让 Claude 利用 Playwright MCP 去自行排查为什么特定的验证会失败。


这种验证流程还可以录制下来,生成录像作为验证通过的证据包,保存在 S3 或分享给同事。Claude Code 团队在实际生产中,基本上就是如此记录所有代码改动的。

最后,Arnaud 给出了一些实用建议:Opus 4.7 的效果非常好,因为它拥有更出色的视觉模型。在快速迭代产品规范时,尽管成本略高,但配合快速模式(fast mode)非常值得。如果想深入了解具体配置,可以在代码仓库中查阅第三阶段的 Readme 文件及验证详情。
相关代码库地址:https://github.com/anthropics/cwc-workshops
在云栈社区,我们同样持续关注前沿的协作开发模式。当工具的能力边界被不断拓展时,调整工作习惯去适配工具,往往比让工具适配我们更加高效。
参考链接: