云栈社区»论坛 › 回收站「 Recycle Bin 」 › 通用Agent演进三阶段：技术瓶颈分析与十亿日活破局路径 ...

发回帖发新帖

5627 积分	0 好友	708 主题

发消息

通用Agent演进三阶段：技术瓶颈分析与十亿日活破局路径

发表于 2026-3-7 07:26:53 | 查看: 237| 回复: 0

去年 3 月 7 日，Manus 刷屏的第二天，我在公众号写了一篇关于通用 Agent 未来走向的文章（Manus 技术路线的硬伤）。那篇文章里，我已经把通用 Agent 的演进拆成了三个阶段：云端公域 Agent 的价值与局限、个人助理 Agent 面临的安全困境、以及 OS 级授权重构带来的终极破局。当时没有给它们贴上 L1、L2、L3 的标签，但对每个阶段的问题和前景都做了分析。当时大多数人还在讨论 Manus 的技术架构、GAIA 跑分，我却在想另一个问题：这东西何时才能真正成为能处理个人事务的实用助手？

一年过去了，答案逐渐清晰。

今天，OpenClaw（小龙虾）GitHub Star 突破 26 万，Mac mini 因为它卖断货；今天，小米发布 Xiaomi miclaw，国内首个手机端 Agent 产品开启封测。一年前文章里分析的三个阶段，正在一个接一个地变成现实。

但冷静下来看，小龙虾依然破不了圈，下一个阶段的通用 Agent 才有机会触达十亿日活。

这篇文章，我想把这一年的观察和思考系统梳理一下。

01 什么是通用 Agent 的“三个阶段”？

先说结论。我把通用 Agent 的演进分为三个阶段，借鉴自动驾驶的分级思路：

通用Agent三层演进架构图

简单概括一下每个阶段的核心特征：

通用Agent L1 L2 L3对比维度表格

接下来逐一拆解。

02 L1：从 Manus 说起，云端 Agent 已经证明了价值

2025 年 3 月 6 日，Manus 发布。一夜之间邀请码被炒到 5 万元，整个 AI 圈为之沸腾。

Manus 做对了一件事：让 AI 从“给答案”变成“交成果”。它不再只是一个聊天框，而是能自己写代码、爬数据、生成可交互的网页报告。你给它一个指令，它自己拆解任务、规划步骤、调用工具，最终交付一个完整的 Artifact。

但 Manus 有一个天然的边界：它运行在云端沙箱里，无法访问你的个人数据。

这意味着什么？你可以让它做行业调研、竞品分析、简历筛选，但你没法让它帮你整理手机相册、回复微信消息、在淘宝上比价下单。L1 的 Agent 是一个非常优秀的实习生，但它进不了你的办公室。

这个阶段的价值是明确的。对知识工作者来说，Manus 类产品确实能节省大量时间。但它的天花板也很清楚：面向的是有明确信息处理需求的专业用户，而且单次任务成本不低、执行时间较长，日活天花板在百万级别。

至于交易价格远超实际价值的原因，我认为是 Meta 的 Zuckerberg 为焦虑买单，间接推高了产品和团队定价。

03 L2：小龙虾的尴尬，像极了自动驾驶的 L3

2026 年 1 月，OpenClaw（最初叫 Clawdbot，后来因为 Anthropic 的商标投诉改名）突然爆火。GitHub 一天涨 9000 Star，Mac mini 因此卖断货，“上门安装小龙虾”甚至成了一门年入百万的生意。

紧接着，网易有道包装了 LobsterAI，小米今天发布了 Xiaomi miclaw，字节的豆包手机助手去年底就已经跟中兴合作落地。

L2 阶段的核心诉求是：让 Agent 接管你的设备，用你的身份帮你干活。

听起来很美好，但现实很骨感。我来说说 L2 面临的两个致命问题。

问题一：安全是唯一真正的瓶颈

傅盛老师提过成本和门槛问题，我认为这些都不是核心障碍。如果一个 Agent 真能带来 10 倍、100 倍的生产力提升，成本就不是成本，而是投资；门槛也会因为巨大的价值吸引无数人前赴后继地去解决。

安全，才是 L2 阶段唯一的问题。

看看 OpenClaw 发生了什么：

OpenClaw安全问题爆发流程图

这不是理论上的风险，这是已经发生的事实。安全研究人员发现成百上千个 OpenClaw 控制台直接暴露在公网，默认没有密码。任何人都可以查看用户的私人聊天记录、读取 API Key，甚至远程控制用户的电脑。

更让人脊背发凉的是“提示词注入”：OpenClaw 拥有文件读写和系统执行权限，如果它处理了一封包含恶意指令的邮件，这个强大的 AI 助理瞬间就变成了系统级的“内鬼”。

问题二：人和 Agent 抢操作权

L2 阶段还有一个被低估的问题：Agent 在操作你的设备时，你没法同时用。

这就是为什么 OpenClaw 用户要额外买一台 Mac mini，让 Agent 在那台机器上跑，自己用另一台电脑工作。豆包手机的做法更聪明一些，在系统层做了虚拟化设计，后台有一个独立的 Virtual Display 供 Agent 执行任务。但本质问题没变：Agent 的执行过程和用户的操作是冲突的。

这像极了自动驾驶的 L3 级别：车可以自己开，但你得随时准备接管方向盘。这种“半自动”状态非常尴尬，既不能完全放手让 AI 干活，又要时刻关注它在做什么。

结果就是：L2 阶段的 Agent 只对 AI 发烧友有吸引力，普通用户根本没有动力去折腾。

从豆包手机的遭遇可以看得更清楚。去年 12 月字节联合中兴发布搭载豆包手机助手的 nubia M153，结果微信、支付宝、淘宝等主流 App 集体“抵制”，弹出安全警告、强制退出、拒绝登录。这不是针对字节，而是现有的 App 生态和 Agent 的运行模式存在根本性的冲突。

这也解释了为什么我说小龙虾破圈不了。它的用户群体天然被限制在技术爱好者和极客圈层，日活天花板可能只有千万级。

04 L3：真正的破圈，需要一场 OS 级别的革命

那什么时候通用 Agent 才能真正走进千家万户，触达十亿日活？

答案是 L3：操作系统层面重新设计授权机制，应用层全面适配。

我们先看一下当前 OS 的授权模型有多“粗”：

当前与L3时代OS授权模型对比图

乔布斯在 2007 年为 iOS 设计的授权机制已经过去了 19 年。后来者们一直在小修小补：加个“仅使用期间允许位置访问”、加个“允许访问部分照片”。但这些都是在原有框架上打补丁，根本无法支撑 Agent 时代的需求。

想象一下 L3 时代的授权体系应该长什么样：

功能粒度：不是“允许访问支付宝”，而是“允许 Agent 在支付宝中查询余额，但不允许转账”。
数量管控：不是“允许支付”，而是“单笔不超过 200 元，单日累计不超过 1000 元”。
单次审批：对于超出预设范围的操作，Agent 暂停执行，推送审批请求到用户手机，用户一键确认或拒绝。
时间窗口： “接下来 2 小时内，允许 Agent 操作我的邮件和日历，但其他应用保持锁定”。
操作审计：每次操作自动留痕，支持一键撤回，支持事后复盘。

这不是幻想。我们已经能看到一些苗头了。

今天小米发布的 Xiaomi miclaw，虽然本质上还是 L2 的产品形态（GUI Agent 模拟人类操作），但它以系统应用身份运行，封装了 50 多项系统级工具，并且接入了小米的 IoT 生态。更关键的是它提出了“三级智能记忆管理”和 MCP 协议支持，这些都是向 L3 方向探索的信号。

豆包手机助手虽然遭遇了 App 生态的集体抵制，但它建立了“事前、事中、事后”三层授权体系，规定了六类必须二次确认的操作（金融交易、权限管理、系统控制等），这也是在粗粒度 OS 授权之上自行搭建更细粒度的权限控制。

L3时代OS、应用、Agent三层协同架构图

L3 的核心不是模型能力的提升，而是一场基础设施的变革。需要 OS 厂商定义全新的授权框架，需要应用开发者适配这套框架，需要 Agent 在这套框架内安全运行。三方协同，缺一不可。

05 谁会率先进入 L3？

坦率说，我不确定。但有几个观察值得分享。

目前看起来最有可能率先突破的是手机厂商阵营。荣耀在 Magic OS 中推出了 Yoyo 智能体，华为在纯血鸿蒙中植入了小艺，小米今天发布了 miclaw。这些厂商的优势在于：它们同时掌控 OS 和硬件，有能力从底层重新设计授权机制。

但问题也很明显：如果 Xiaomi miclaw 只是把小龙虾搬到手机上，那它还是 L2。真正进入 L3，需要从 OS 层面设计全新的授权机制，应用层也要主动接入进来。

另一个有意思的方向是 MCP（Model Context Protocol）。当 App 直接向 Agent 暴露结构化的能力组件，OS 对每一次调用进行统一的权限管理时，其安全性反而比现在的“屏幕截图 + GUI Agent + 模拟点击”要高得多。这可能是从 L2 过渡到 L3 的一条务实路径。

字节跳动的策略也值得关注。它没有自己的 OS，但通过“大模型厂商 + 手机厂商”的合作模式，试图绕过 OS 壁垒。豆包手机被 App 集体封杀的经历恰恰说明了一个问题：没有 OS 层面的制度化支撑，Agent 的权限之争就是一场零和博弈。

06 回看这一年：从预判到验证

回头看一年前写的那篇文章，虽然当时没有明确定义 L1、L2、L3 的分级，但对每个阶段的核心问题和演进逻辑都做了分析。这一年下来，有些判断被验证了，有些还在路上。

被验证的部分：

L1 快速成熟。 Manus 之后，扣子空间、百度心响、昆仑天工等大量 L1 产品涌现，云端 Agent 已经成为标配能力。
L2 受困于安全。无论是 OpenClaw 的安全事故，还是豆包手机被 App 封杀，都印证了安全是 L2 的核心瓶颈。
手机厂商入局。小米 miclaw、荣耀 Yoyo、华为小艺，手机厂商正在成为 Agent 落地的关键推动力。

还在路上的部分：

L3 阶段的到来时间。一年前我乐观估计可能在 2027 年春节前后看到雏形，现在看来这个判断依然成立，但前提是有一个 OS 厂商愿意“掀桌子”，从底层重新设计授权体系。

07 写在最后

通用 Agent 的三个阶段，本质上是一个信任逐步建立的过程。

L1，我们信任 AI 处理公开数据。L2，我们尝试信任 AI 操作我们的设备，但安全机制跟不上。L3，操作系统层面为这种信任提供了制度化的保障。

19 年前乔布斯设计的授权机制，该更新换代了。

AI 时代需要一套全新的“数字社会契约”：Agent 可以代理用户行动，但必须在可控、可审计、可撤回的框架内运行。谁先建立这套框架，谁就有可能拿到十亿日活的门票。

最后抛个开放性问题：你觉得这场 OS 级别的授权革命，会由传统手机厂商发起，还是会由 AI 原生公司来推动？欢迎在云栈社区的相关板块留言讨论。

上一篇：Linux 文件比较与排序命令全解析：运维与 Shell 脚本实战指南
下一篇：盘点三款小众开发者应用：Fito运动激励、Re:card灵感笔记与WatchNice截图美化

通用智能体, 操作系统授权, 人工智能安全, 智能手机, MCP协议