找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1819

积分

0

好友

241

主题
发表于 12 小时前 | 查看: 3| 回复: 0

前几天在X上看到独立开发者Elvis的一条推文,让我眼前一亮。他分享了自己已经不再直接使用Claude Code或Codex,而是用OpenClaw作为编排层,通过一个名为Zoe的AI编排器来管理一整支由Claude Code和Codex组成的Agent Swarm

这条推文热度很高,获得了超过490万的浏览和1.1万点赞。

Elvis分享的OpenClaw与Codex/ClaudeCode Agent Swarm架构流程图

作为一名长期实践Vibe Coding、以Claude Code为主力工具的开发者,我之前也探索过多Agent协作与IDE集成方案。但Elvis的这套玩法,让我直呼“专业”。他一个人,依靠这套自动化系统,日均提交代码50次,峰值时一天提交94次,同时还处理了客户沟通,自己甚至没打开过代码编辑器。

这不就是真正意义上的“一人开发团队”吗?今天,我们就来深入拆解一下他是如何实现的。

OpenClaw:从火爆到超越React的开源AI Agent框架

大家对OpenClaw应该不陌生了,这款以小龙虾为标志的开源AI Agent框架从春节前火到现在。简单来说,它不是一个聊天机器人,而是一个运行在本地的AI Agent运行时。其GitHub星标数已突破24万,并正式超越了React,成为GitHub历史上星标增长最快的项目之一。

OpenClaw宣布其GitHub星标数超越React的社交媒体截图与趋势图

创始人Peter Steinberger是位奥地利开发者,曾成功创立B2B公司PSPDFKit。今年2月,他宣布加入OpenAI,并将OpenClaw项目移交给了开源基金会运营。

OpenClaw包含Gateway(连接多种消息平台)、Agent(推理引擎)、Skills(超5400个插件)和Memory(记忆系统)四个核心组件。但Elvis的用法很特别:他并未将其用作通用助手,而是专门用作编排层,来管理和驱动Claude Code、Codex这类编码专用Agent。这个思路确实与众不同。

核心架构:为什么需要一个编排层?

Elvis在推文中提出了一个关键观点:上下文窗口是零和博弈。你把空间用来装代码,就没法充分容纳业务上下文;反之亦然。单个AI模型再强大,也很难同时高效处理代码库和客户需求这两种截然不同的信息。

因此,他将系统设计为两层结构:

  • 上层(编排层):由OpenClaw的编排器Zoe负责。她掌握所有业务上下文,包括客户数据、会议记录、历史决策与成败经验。这些信息存储在Elvis的Obsidian笔记库中,Zoe可以直接访问。
  • 下层(执行层):由Claude Code和Codex等编码Agent组成。它们只专注于代码编写。每个Agent启动时,Zoe会根据具体的业务上下文,为它生成一份精准的提示(prompt),明确任务目标、背景和客户需求。

简而言之,编排器负责理解“为什么”和“做什么”,编码Agent则专注于“怎么做”。这个架构与Stripe内部公开的Minions系统异曲同工,后者也采用并行编码Agent加集中式编排层的设计,每周能合并上千个由AI编写的PR。Elvis笑称自己无意中在个人Mac mini上搭建了一个类似系统。

实战工作流解析:从客户需求到自动合并PR

Elvis用一个真实案例演示了他的完整工作流:

  1. 需求接收与理解:接到客户希望复用内部配置的电话后,他与Zoe讨论需求。由于会议记录已自动同步至Obsidian,Zoe已掌握全部信息,无需额外解释。他们共同确定功能范围,最终方案是开发一个模板系统。
  2. 自动任务派发:随后,Zoe自动执行了三件事:
    • 通过管理员API权限为客户充值解锁服务。
    • 以只读权限从生产数据库拉取客户现有配置(编码Agent无此权限)。
    • 生成一个Codex Agent,并附上包含完整业务上下文的详细prompt。
  3. Agent隔离与运行:每个Agent都拥有自己独立的工作分支(git worktree)和tmux会话。启动命令大致如下:
    # Create worktree + spawn agent
    git worktree add ../feat-custom-templates -b feat/custom-templates origin/main
    cd ../feat-custom-templates && pnpm install
    tmux new-session -d -s "codex-templates" \
      -c "/Users/elvis/Documents/GitHub/medialyst-worktrees/feat-custom-templates" \
      "$HOME/.codex-agent/run-agent.sh templates gpt-5.3-codex high"
  4. 自动化监控与恢复:一个定时任务每10分钟巡检一次,通过确定性Shell脚本检查tmux会话状态、PR创建情况以及CI结果,而非直接询问Agent(避免消耗token)。若CI失败,系统会自动重启Agent(最多3次),仅在需要人工干预时才发送通知。
  5. 多模型交叉代码审查:Agent完成任务并创建PR后,还需满足一套严格的完成标准:PR创建、分支可无冲突合并至main、CI全部通过,并且必须经过三个不同AI模型的代码审查(如有UI改动还需附上截图)。
    Elvis对这三个审查模型的评价很有意思:
    • Codex Reviewer:评价最高,审查边界情况和逻辑错误非常彻底,误报率低。
    • Gemini Code Assist Reviewer(免费版):非常实用,能发现其他模型遗漏的安全隐患和可扩展性问题,并能给出具体修复方案。
    • Claude Code Reviewer:评价是“基本没用”,认为其过度谨慎,建议大多属于过度设计,除非标记为关键问题,否则他会直接跳过。
      多模型审查的价值在于,不同模型的“偏见”可以形成互补,提高审查的全面性。
  6. 高效人工确认:三项AI审查全部通过后,Elvis会收到Telegram通知。此时他主要查看UI截图以确认改动正确,许多PR的代码他不再细看就直接合并,人工审查时间仅需5到10分钟。

超越自动化:具备主动性的AI编排器

Zoe不仅仅是被动执行命令。更引人注目的是它的主动性

Elvis描述道,Zoe会主动寻找工作:早上扫描Sentry错误日志并自动派发Agent修复;会后分析记录,提取客户提到的功能需求并启动开发Agent;晚上检查Git日志,启动Claude Code更新变更日志和客户文档。他出门遛个弯回来,可能就发现Telegram上躺着7个待合并的PR通知。

当Agent失败时,Zoe的处理方式也更为智能。它会结合业务上下文分析失败原因:是上下文窗口满了?那就缩小范围,让Agent只关注少数几个关键文件。是Agent理解跑偏了?它会纠正方向,并附上会议中的原话作为依据。

随着时间推移,Zoe还会积累经验,记住哪些提示词结构对哪类任务更有效,从而写出越来越精准的prompt。这就像是Ralph Loop(一种包含评估与经验保存的AI循环)的升级版,每次重试都会根据失败原因和完整的业务上下文动态调整策略。

成本、硬件与现实的考量

  • 费用:Elvis公开的月度成本约为Claude 100美元,Codex 90美元。他也建议可以从20美元左右的规模开始尝试。相对于雇佣一名开发者,这成本极低,但它更像是一个“效率放大器”,主要替代的是编码、构建、测试等高重复性环节。
  • 硬件瓶颈:当前最大的瓶颈是内存(RAM)。每个Agent需要独立的工作分支和node_modules,并行运行多个Agent意味着多个TypeScript编译器、测试运行器和依赖项同时在运转。他的16GB Mac mini最多同时支撑4-5个Agent,为此他升级到了128GB内存的Mac Studio M4 Max以支持更高并发。
  • 适用前提与风险
    • 这套系统的前提是你拥有清晰的产品、明确的客户需求和成熟的CI/CD流水线。如果你的项目仍处于Demo或学习阶段,该架构的投入产出比可能不高。
    • OpenClaw的安全问题需要高度重视。根据公开信息,已有多个高危CVE被披露,并且发现有大量恶意社区插件存在数据窃取行为。部署时必须做好严格的隔离和权限控制。
    • 虽然Elvis对Claude Code的审查功能评价不高,但值得注意的是,Claude Code近期推出了官方内置的“Agent Teams”功能,显示Anthropic也在向多Agent协作与编排方向发力。

结语

Elvis的这套“编排层+执行层”的分层架构思路,为解决AI上下文窗口的零和博弈问题提供了一个颇具启发的实践方向。通过让不同的AI各司其职,充分发挥各自优势,确实能将个人开发效率推向一个新的高度。这也让我对开源项目的灵活运用和AI Agent技术的生产力潜力有了更深的认识。对更多AI开发实战内容感兴趣的朋友,欢迎关注云栈社区人工智能开源实战板块。

如果你对这个话题有更深的兴趣,推荐直接阅读Elvis的原推文,信息密度极高:
https://x.com/elvissun/status/2025920521871716562




上一篇:Claude Code运营Twitter十日实验:从1934次曝光与15000字日记中学到的强化学习洞察
下一篇:攻防演练目标资产名称自动化纠正:Python脚本实现与实战
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-5 20:28 , Processed in 0.523238 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表