昨天在饭局上听人聊起手机版OpenClaw,这个概念让我挺感兴趣。回家后花时间研究了一下,今天和大家分享一下我的发现和体验。
对于不太了解的朋友,可以先简单了解一下。OpenClaw本质上是一种能够模拟用户真实操作行为的AI代理,在PC端,它主要操控浏览器来完成各种网页任务,这套方案已经相对成熟。最近,Chrome 146 浏览器也原生集成了对 MCP(模型上下文协议)的支持,进一步为这类AI代理铺平了道路。

但在手机上,单纯操作浏览器的意义就没那么大了。我们日常的核心场景——订外卖、打车、买票——都发生在各式各样的App里。所以,如果AI能直接操作手机App,那才算是一次真正的突破。之前字节跳动的“豆包手机”引起广泛关注,也正是基于这个逻辑。
那么,手机版的OpenClaw到底是什么?
具体来说,它指的是百度智能云团队推出的一个名为 RedClaw 的产品(其前身是“红手指Operator”)。刚听说时,我的第一反应是:这不就和豆包手机差不多吗?

但实际体验后,我才理解了它们的关键区别:执行环境完全不同。豆包手机走的是“端侧路线”,需要直接接管用户手中的实体手机,这意味着它必须与手机厂商深度合作,获得系统层面的高级权限。
而 RedClaw 选择了一条不同的路:它操作的是云端的一台虚拟安卓手机,并不会接管我们本地的物理设备。简单说,当你打开RedClaw应用,它会在云端为你分配一台“手机”,其理念与OpenClaw在云端为用户开一台“电脑”如出一辙。

其运作流程大致如下:云端存在一台安卓手机,用户在本地手机上下达自然语言指令。云端通过截图或画面流将手机界面实时推回,然后基于 VLA(视觉-语言-动作)多模态大模型 来理解屏幕内容,规划出点击、滑动、输入等操作步骤,并将这些动作“注入”到云端那台手机中执行。遇到需要账号登录、支付确认等敏感步骤时,系统会切换至“用户接管”模式,由用户自己操作完成。
光说原理可能有些抽象,我们直接看一个例子。我让RedClaw帮我去爱奇艺上搜索并预约一下《飞驰人生3》。可以看到,AI在理解任务后,会像真人一样进行逻辑推理,规划出正确的操作步骤。

在执行过程中,RedClaw发现我的“云手机”上没有安装爱奇艺App。它立刻做出判断:“未找到爱奇艺应用,需要去应用市场搜索安装”。随后,它便自动跳转到应用市场开始搜索。

找到正确的“爱奇艺-华为”应用后,它点击了安装按钮。每个步骤都可以点击“查看截图”链接,查看具体的操作画面。

应用安装完成后,它会自动返回主屏幕,识别并点击爱奇艺图标。打开App后,在顶部的搜索框中输入“飞驰人生3”。

接下来就是点击预约按钮,这一步需要登录爱奇艺账号。此时,RedClaw会弹出“接管手机”的窗口,用户点击接管后,手动完成登录,即可显示预约成功。如果想观察AI是如何操作云手机的,可以点击界面右上角的“预览”按钮,整个过程清晰可见。
整个任务的执行相当顺畅。我原本以为AI会来回试探、寻找按钮,但实际上它的操作可以一步到位,逻辑清晰。
手机版OpenClaw的技术原理
我大致研究了一下这款产品的技术架构,它主要分为三层。

最底层是云计算层,相当于地基。
这一层基于百度的ARM云服务,在云端虚拟出完整的安卓手机实例。这台“云手机”和我们手上的真机功能无异,可以安装App、联网、执行操作,只不过它运行在远端的服务器上。同时,系统支持多实例并发与安全隔离,为每个用户分配独立的虚拟环境。
中间层是AI模型层,相当于大脑。
这里核心是 VLA多模态大模型。VLA是Vision-Language-Action的缩写,即视觉、语言、行动三合一。它能够理解用户下达的自然语言指令,看懂手机屏幕上的界面元素(图标、文字、按钮等),并规划出一步步该如何操作。
最上层是执行操作层,相当于双手。
大脑规划好步骤后,需要“手”去执行。这一层通过 MCP(模型上下文协议)接口 和 ADB(安卓调试桥)通道 来实现。MCP提供标准化的控制接口,将屏幕操作、应用管理、文本输入等能力封装成工具供AI调用;ADB则负责将具体的点击、滑动、安装等动作指令真正注入到云端手机中。
整个工作流程形成了一个闭环:用户在本地手机下达任务,指令发送至云端AI“大脑”;大脑理解并规划步骤后,指挥“双手”在云端手机上执行;执行后的画面实时回传,大脑根据新画面判断下一步行动,如此循环直至任务完成。涉及敏感操作时,流程中断,等待用户接管。
这种架构的最大优势在于它巧妙地绕过了对手机厂商的依赖,并且对用户极其友好。试想,豆包手机方案需要厂商深度配合和系统级授权,而RedClaw在用户手机上只是一个普通的App。用户手机仅承担显示、输入和最终授权确认的角色,真正的“脏活累活”全在云端完成。这甚至在理论上使其能够支持iOS系统——只需在iOS上架一个连接云端虚拟机的客户端App即可,云端跑什么系统(安卓)与用户本地设备无关。
从订票到“养虾”:技能的沉淀与进化
我们再看一个更复杂的案例。我让RedClaw帮我订一张3月23日从北京飞深圳的最便宜机票。它依旧遵循先检查App的逻辑,发现未安装订票应用后,自动为我下载并安装了携程旅行。随后,它按照要求筛选出符合条件的航班,最终停留在选择乘机人和付款的页面,等待我手动接管完成支付。
这时我产生了一个想法:如果我不想用携程,而习惯用美团或飞猪呢?虽然每次告诉它也可以,但能否一劳永逸?这让我立刻联想到了OpenClaw的经典解法:Skill(技能)与记忆能力。
其实,完全可以把这套思路平移到RedClaw上。例如,在顺利跑完一次美团订票流程后,我可以告诉它:“把刚才这套用美团订机票的流程,封装成一个固定的Skill。” 这样,下次我再说“订票”,它就能自动调用美团Skill来执行。RedClaw也支持类似的功能。

看电影、点外卖等场景同理。我可以将自己的偏好(比如用腾讯视频看电影、用某家特定外卖平台)沉淀为特定的Skill,或存入长期记忆。熟悉OpenClaw的朋友会把这过程称为 “养虾” ——通过不断互动和反馈,让你的AI助手越来越懂你。现在,在手机端我们同样可以“养”,只不过是在云端的那台虚拟安卓手机里,培育专属于你的智能体。
两者的内核逻辑高度一致:OpenClaw在云端电脑里替你操作浏览器,RedClaw则在云端手机里替你操作App。入口不同,但核心思想同源。此外,RedClaw还支持设置定时任务,比如让它自动生成工作周报、提醒生活习惯等,拓展了 AI代理 的应用边界。
写在最后
体验下来,RedClaw这款产品确实让人眼前一亮。我发现它在云端环境中还同步部署了标准的OpenClaw。这意味着,通过这一个入口,用户既能调用OpenClaw操作浏览器处理网页任务,又能使用RedClaw的能力操作手机App,实现了电脑端与手机端AI执行能力的统一。
据了解,其iOS版本也计划在不久后上线,这印证了其“云端执行、不挑客户端”的技术路径优势。我个人认为,让AI代理直接操作应用(无论是网页还是原生App)是大势所趋。Chrome的积极拥抱和Notion创始人的观点(“如果你的产品不能被Agent操作,那它的价值就没那么大了”)都指向了同一个未来。
当然,这条路不会一帆风顺。全面开放接口让AI代理操作,涉及大量App的商业模式和生态调整,过程必然缓慢。RedClaw自身也有改进空间,例如当前操作App的速度仍有提升的余地。
但可以确定的是,一种新的人机交互与任务执行方式已经清晰可见。技术发展的洪流浩浩荡荡,RedClaw所代表的“云端AI执行”模式,或许正是未来移动智能化的重要拼图之一。对于开发者或技术爱好者而言,关注此类 AI代理 与云端移动开发技术的结合点,或许能发现新的可能性。更多前沿技术探讨,欢迎来到云栈社区交流分享。