去年 3 月 7 日,Manus 刷屏的第二天,我在公众号写了一篇关于通用 Agent 未来走向的文章(Manus 技术路线的硬伤)。那篇文章里,我已经把通用 Agent 的演进拆成了三个阶段:云端公域 Agent 的价值与局限、个人助理 Agent 面临的安全困境、以及 OS 级授权重构带来的终极破局。当时没有给它们贴上 L1、L2、L3 的标签,但对每个阶段的问题和前景都做了分析。当时大多数人还在讨论 Manus 的技术架构、GAIA 跑分,我却在想另一个问题:这东西何时才能真正成为能处理个人事务的实用助手?
一年过去了,答案逐渐清晰。
今天,OpenClaw(小龙虾)GitHub Star 突破 26 万,Mac mini 因为它卖断货;今天,小米发布 Xiaomi miclaw,国内首个手机端 Agent 产品开启封测。一年前文章里分析的三个阶段,正在一个接一个地变成现实。
但冷静下来看,小龙虾依然破不了圈,下一个阶段的通用 Agent 才有机会触达十亿日活。
这篇文章,我想把这一年的观察和思考系统梳理一下。
01 什么是通用 Agent 的“三个阶段”?
先说结论。我把通用 Agent 的演进分为三个阶段,借鉴自动驾驶的分级思路:

简单概括一下每个阶段的核心特征:

接下来逐一拆解。
02 L1:从 Manus 说起,云端 Agent 已经证明了价值
2025 年 3 月 6 日,Manus 发布。一夜之间邀请码被炒到 5 万元,整个 AI 圈为之沸腾。
Manus 做对了一件事:让 AI 从“给答案”变成“交成果”。它不再只是一个聊天框,而是能自己写代码、爬数据、生成可交互的网页报告。你给它一个指令,它自己拆解任务、规划步骤、调用工具,最终交付一个完整的 Artifact。
但 Manus 有一个天然的边界:它运行在云端沙箱里,无法访问你的个人数据。
这意味着什么?你可以让它做行业调研、竞品分析、简历筛选,但你没法让它帮你整理手机相册、回复微信消息、在淘宝上比价下单。L1 的 Agent 是一个非常优秀的实习生,但它进不了你的办公室。
这个阶段的价值是明确的。对知识工作者来说,Manus 类产品确实能节省大量时间。但它的天花板也很清楚:面向的是有明确信息处理需求的专业用户,而且单次任务成本不低、执行时间较长,日活天花板在百万级别。
至于交易价格远超实际价值的原因,我认为是 Meta 的 Zuckerberg 为焦虑买单,间接推高了产品和团队定价。
03 L2:小龙虾的尴尬,像极了自动驾驶的 L3
2026 年 1 月,OpenClaw(最初叫 Clawdbot,后来因为 Anthropic 的商标投诉改名)突然爆火。GitHub 一天涨 9000 Star,Mac mini 因此卖断货,“上门安装小龙虾”甚至成了一门年入百万的生意。
紧接着,网易有道包装了 LobsterAI,小米今天发布了 Xiaomi miclaw,字节的豆包手机助手去年底就已经跟中兴合作落地。
L2 阶段的核心诉求是:让 Agent 接管你的设备,用你的身份帮你干活。
听起来很美好,但现实很骨感。我来说说 L2 面临的两个致命问题。
问题一:安全是唯一真正的瓶颈
傅盛老师提过成本和门槛问题,我认为这些都不是核心障碍。如果一个 Agent 真能带来 10 倍、100 倍的生产力提升,成本就不是成本,而是投资;门槛也会因为巨大的价值吸引无数人前赴后继地去解决。
安全,才是 L2 阶段唯一的问题。
看看 OpenClaw 发生了什么:

这不是理论上的风险,这是已经发生的事实。安全研究人员发现成百上千个 OpenClaw 控制台直接暴露在公网,默认没有密码。任何人都可以查看用户的私人聊天记录、读取 API Key,甚至远程控制用户的电脑。
更让人脊背发凉的是“提示词注入”:OpenClaw 拥有文件读写和系统执行权限,如果它处理了一封包含恶意指令的邮件,这个强大的 AI 助理瞬间就变成了系统级的“内鬼”。
问题二:人和 Agent 抢操作权
L2 阶段还有一个被低估的问题:Agent 在操作你的设备时,你没法同时用。
这就是为什么 OpenClaw 用户要额外买一台 Mac mini,让 Agent 在那台机器上跑,自己用另一台电脑工作。豆包手机的做法更聪明一些,在系统层做了虚拟化设计,后台有一个独立的 Virtual Display 供 Agent 执行任务。但本质问题没变:Agent 的执行过程和用户的操作是冲突的。
这像极了自动驾驶的 L3 级别:车可以自己开,但你得随时准备接管方向盘。这种“半自动”状态非常尴尬,既不能完全放手让 AI 干活,又要时刻关注它在做什么。
结果就是:L2 阶段的 Agent 只对 AI 发烧友有吸引力,普通用户根本没有动力去折腾。
从豆包手机的遭遇可以看得更清楚。去年 12 月字节联合中兴发布搭载豆包手机助手的 nubia M153,结果微信、支付宝、淘宝等主流 App 集体“抵制”,弹出安全警告、强制退出、拒绝登录。这不是针对字节,而是现有的 App 生态和 Agent 的运行模式存在根本性的冲突。
这也解释了为什么我说小龙虾破圈不了。它的用户群体天然被限制在技术爱好者和极客圈层,日活天花板可能只有千万级。
04 L3:真正的破圈,需要一场 OS 级别的革命
那什么时候通用 Agent 才能真正走进千家万户,触达十亿日活?
答案是 L3:操作系统层面重新设计授权机制,应用层全面适配。
我们先看一下当前 OS 的授权模型有多“粗”:

乔布斯在 2007 年为 iOS 设计的授权机制已经过去了 19 年。后来者们一直在小修小补:加个“仅使用期间允许位置访问”、加个“允许访问部分照片”。但这些都是在原有框架上打补丁,根本无法支撑 Agent 时代的需求。
想象一下 L3 时代的授权体系应该长什么样:
- 功能粒度: 不是“允许访问支付宝”,而是“允许 Agent 在支付宝中查询余额,但不允许转账”。
- 数量管控: 不是“允许支付”,而是“单笔不超过 200 元,单日累计不超过 1000 元”。
- 单次审批: 对于超出预设范围的操作,Agent 暂停执行,推送审批请求到用户手机,用户一键确认或拒绝。
- 时间窗口: “接下来 2 小时内,允许 Agent 操作我的邮件和日历,但其他应用保持锁定”。
- 操作审计: 每次操作自动留痕,支持一键撤回,支持事后复盘。
这不是幻想。我们已经能看到一些苗头了。
今天小米发布的 Xiaomi miclaw,虽然本质上还是 L2 的产品形态(GUI Agent 模拟人类操作),但它以系统应用身份运行,封装了 50 多项系统级工具,并且接入了小米的 IoT 生态。更关键的是它提出了“三级智能记忆管理”和 MCP 协议 支持,这些都是向 L3 方向探索的信号。
豆包手机助手虽然遭遇了 App 生态的集体抵制,但它建立了“事前、事中、事后”三层授权体系,规定了六类必须二次确认的操作(金融交易、权限管理、系统控制等),这也是在粗粒度 OS 授权之上自行搭建更细粒度的权限控制。

L3 的核心不是模型能力的提升,而是一场基础设施的变革。需要 OS 厂商定义全新的授权框架,需要应用开发者适配这套框架,需要 Agent 在这套框架内安全运行。三方协同,缺一不可。
05 谁会率先进入 L3?
坦率说,我不确定。但有几个观察值得分享。
目前看起来最有可能率先突破的是手机厂商阵营。荣耀在 Magic OS 中推出了 Yoyo 智能体,华为在纯血鸿蒙中植入了小艺,小米今天发布了 miclaw。这些厂商的优势在于:它们同时掌控 OS 和硬件,有能力从底层重新设计授权机制。
但问题也很明显:如果 Xiaomi miclaw 只是把小龙虾搬到手机上,那它还是 L2。真正进入 L3,需要从 OS 层面设计全新的授权机制,应用层也要主动接入进来。
另一个有意思的方向是 MCP(Model Context Protocol)。当 App 直接向 Agent 暴露结构化的能力组件,OS 对每一次调用进行统一的权限管理时,其安全性反而比现在的“屏幕截图 + GUI Agent + 模拟点击”要高得多。这可能是从 L2 过渡到 L3 的一条务实路径。
字节跳动的策略也值得关注。它没有自己的 OS,但通过“大模型厂商 + 手机厂商”的合作模式,试图绕过 OS 壁垒。豆包手机被 App 集体封杀的经历恰恰说明了一个问题:没有 OS 层面的制度化支撑,Agent 的权限之争就是一场零和博弈。
06 回看这一年:从预判到验证
回头看一年前写的那篇文章,虽然当时没有明确定义 L1、L2、L3 的分级,但对每个阶段的核心问题和演进逻辑都做了分析。这一年下来,有些判断被验证了,有些还在路上。
被验证的部分:
- L1 快速成熟。 Manus 之后,扣子空间、百度心响、昆仑天工等大量 L1 产品涌现,云端 Agent 已经成为标配能力。
- L2 受困于安全。 无论是 OpenClaw 的安全事故,还是豆包手机被 App 封杀,都印证了安全是 L2 的核心瓶颈。
- 手机厂商入局。 小米 miclaw、荣耀 Yoyo、华为小艺,手机厂商正在成为 Agent 落地的关键推动力。
还在路上的部分:
- L3 阶段的到来时间。一年前我乐观估计可能在 2027 年春节前后看到雏形,现在看来这个判断依然成立,但前提是有一个 OS 厂商愿意“掀桌子”,从底层重新设计授权体系。
07 写在最后
通用 Agent 的三个阶段,本质上是一个信任逐步建立的过程。
L1,我们信任 AI 处理公开数据。L2,我们尝试信任 AI 操作我们的设备,但安全机制跟不上。L3,操作系统层面为这种信任提供了制度化的保障。
19 年前乔布斯设计的授权机制,该更新换代了。
AI 时代需要一套全新的“数字社会契约”:Agent 可以代理用户行动,但必须在可控、可审计、可撤回的框架内运行。谁先建立这套框架,谁就有可能拿到十亿日活的门票。
最后抛个开放性问题:你觉得这场 OS 级别的授权革命,会由传统手机厂商发起,还是会由 AI 原生公司来推动?欢迎在云栈社区的相关板块留言讨论。