找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3914

积分

0

好友

518

主题
发表于 昨天 22:36 | 查看: 4| 回复: 0

过去用 AI 写代码的节奏是:写提示词,等 Agent 改,读 diff,再补一句提示词。

Loop engineering 14-step roadmap 社交媒体讨论截图

Loop engineering 的出现,正让 AI 编程从“会不会写 Prompt”转向“会不会设计 Loop”。

所谓 Loop,并不是让 Agent 无人监管地乱跑。它更像一个小型工程系统:自动发现任务,把任务交给 Agent,检查结果,记录状态,再决定下一步。你设计一次系统,系统以后替你不断提示 Agent。

Loop engineering 14-step roadmap 概念海报

核心判断:别再只盯着提示词了,真正能放飞 Agent 的,是 Skill、状态文件、MCP、Sub‑agent 和客观验收门组成的可控循环。

四种系统在 Automations、Worktrees、Skills、Plugins、Sub-agents、State 维度上的能力对比

它解决的不是怎么问,而是谁来持续问

过去两年,很多人把 AI 编程能力理解为 prompt 能力:怎么喂上下文,怎么拆任务,怎么让模型少犯错。

但 Loop engineering 的视角更进一步:如果某类任务会反复出现,为什么每次都要人坐在椅子上重新提示?

Loop 实际工作流程:从找到任务到决定下一步的循环

把 Loop engineering 定义成一个系统:它会 find the work、hand it to the agent、check the result、record what happened、decide the next move。译成人话就是:

  • 自动知道该干什么;
  • 把任务交给 Agent;
  • 测试、构建、lint 等机制验收;
  • 把结果写进状态文件;
  • 决定继续、重试、升级给人,还是停止。

这也是为什么文章强调,最小可用 Loop 不需要一上来搞 swarm,不需要十几个 Agent 互相协作。最小可用 Loop 只有四件套:一个 automation、一个 Skill、一个 state file、一个 gate。

最小可行循环 (MVL) 的四要素:automation、skill、state file、gate,以及成本度量

这个判断很重要。因为很多人一听“Loop”,脑子里就变成“让 AI 自己干一切”。但文章的真实意思更克制:先把一个手动跑得通的任务稳定下来,再把它写成 Skill,再包进 Loop,最后才考虑 schedule。

顺序不能反。

Skill 是 Loop 的记忆,不是提示词装饰

这篇文章里,“Skill”不是一个锦上添花的 prompt 模板,而是 Loop 能不能持续工作的基础设施。

如果没有 Skill,每一次循环都要重新理解项目:怎么跑测试、哪些目录不能碰、历史上踩过什么坑、哪些失败属于 flake、哪些失败必须升级给人。

这就像让一个新人每天第一天入职。

有了 Skill,项目知识被写进 SKILL.md:分类规则、修复模式、禁止动作、状态更新方式,都可以被每一轮读取。Loop 的价值不是 Agent 单次更聪明,而是项目意图开始复利。

给的 CI triage 例子就很典型:

CI triage skill 的代码片段,展示分类规则、修复模式、禁止操作和状态更新说明

  • missing secret / wrong env var 属于人类处理;
  • retry 后通过的失败先归为 flake;
  • deterministic failure 且关联近期 commit,才适合 draft fix;
  • payments、billing、permissions 这类目录不要自动碰;
  • 每次运行后更新 STATE.md

这不是“提示词写得更长”。这是把团队规则写成 Agent 每轮都能读的操作手册。

MCP 和 Sub‑agent,让 Loop 从脚本变成系统

如果一个 Loop 只能读本地文件,它其实很小。真正有生产价值的 Loop,往往要碰真实工具:GitHub、Linear、Jira、Slack、Sentry、数据库、staging API。

Claude 的 Connectors 界面,展示可连接的工具如 GitHub、Linear、Jira、Sentry 等

这就是 MCP / connectors 的意义。它让 Agent 不只是说“我建议这样修”,而是能在合适权限下:

  • 开分支、开 PR;
  • 把 PR 链回 Linear ticket;
  • CI 绿了之后通知频道;
  • 读取错误追踪系统,定位高频告警;
  • 把无法自动判断的问题升级给人。

但工具一多,风险也上来了。所以文章又强调 Sub‑agent:写代码的 Agent,不应该也是唯一验收它的人。

LLM 生成与评估的反馈循环:生成器产生解,评估器验收或拒绝并反馈

这其实是 Anthropic 很早就写过的 evaluator‑optimizer 思路:一个模型生成,另一个模型批评或验证,再迭代。放在 Loop 里,它变成更朴素的工程原则:maker 和 checker 要分开。

常见拆法是:

  • explorer 负责读代码和找上下文;
  • implementer 负责改;
  • verifier 负责按 spec、测试和风险边界检查。

Sub‑agent 会烧更多 token,因为每个 Agent 都要自己读上下文、调用工具、形成判断。所以它不该被滥用。但在无人值守 Loop 里,一个可信 verifier 往往是你敢离开键盘的前提。

真正的分水岭:有没有客观 Gate

这篇文章最值得反复强调的一点是:Loop engineering 不是“自动化越多越好”。它有一个非常硬的边界:没有客观验收门的 Loop,只是 Agent 自嗨。

判断是否需要构建 Loop 的四项条件测试流程图

给了一个 4 条件测试:

  1. 任务会重复出现;
  2. 验证可以自动化;
  3. token 预算能承受探索、重试和浪费;
  4. Agent 拥有高级工程师该有的工具,比如日志、复现环境、运行测试的能力。

少一个,都不该急着 Loop 化。

尤其是第二条。没有测试、类型检查、构建或 linter,所谓 verifier 很容易只是另一个乐观模型。两个 Agent 互相点头,不等于代码正确。

文章把这种失败叫 Ralph Wiggum loop:Agent 过早喊“完成”,循环因此退出,但任务其实半成品。它不是失败得轰轰烈烈,而是失败得很安静。

修法也很直白:用能返回 pass/fail 的东西做 Gate。测试通过没有?构建成功没有?Lint 是 0 还是非 0?类型检查有没有报错?这些比“另一个 Agent 觉得还行”更可靠。

最该警惕的,不是 token,而是理解债

最后一部分很清醒:Loop 越强,风险越大。

一个能自动开 PR、自动修 lint、自动追 CI 的系统,确实能提升吞吐。但如果人不读 diff,不抽查 gate,不控制权限,最后真正爆掉的可能不是 token 账单,而是理解债。

借 Addy Osmani 的说法提醒了两个风险:

  • Comprehension debt:代码进库速度超过团队理解速度,未来 debug 的时候才还债;
  • Cognitive surrender:你不再形成自己的判断,只是接受 Loop 给出的结果。

再叠加无人值守系统的安全税:

  • 技能来源可能夹带 prompt injection;
  • 调试日志可能泄露凭据;
  • MCP / GitHub / Slack 权限可能越加越大;
  • 自动 PR 可能超过人类 review 能力;
  • auth、payments、billing 这类高风险代码不该轻易交给 Loop。

最后

我的判断是:Loop engineering 不是每个人今天都要上的新潮流,但它确实指出了 AI 编程下一阶段的方向。

把一个重复任务跑通手动流程 → 写成一个 Skill → 加一个状态文件 → 接一个客观 Gate → 再用 Loop 定期跑。

不是 Agent 更自由,而是工程师把自由关进了一个可验证、可追踪、可停止的系统里。

Agent 工作循环总览:Start → 读状态 → 写代码 → 外部检查 → 通过则退出,否则返回重试


 Loop engineering: the 14-step roadmap from prompter to loop designer.
 https://x.com/0xcodez/article/2064374643729773029



上一篇:谷歌7年员工开源AI代理CLI后遭解雇,Vercel等大佬却抢着要
下一篇:私有化模型配置指南:OpenCode 内网部署与 API 密钥设置
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-27 02:50 , Processed in 0.805691 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表