25美元(约合人民币173元),你会用它来做什么?
对于美国一位热衷于折腾AI的开发者(我们称他为Ethan)而言,这笔钱足以搭建一个“能够操作物理世界的智能体”。他完成了一项听起来有些天马行空的实验:在一台沃尔玛售价仅25-30美元的预付费安卓手机上,成功运行了近来备受关注的OpenClaw,并使其通过Discord接收指令,直接操控手机硬件——开关手电筒、拍照识别、读取传感器数据,甚至尝试拨打电话。

他的野心不止于此,他还计划部署一整排手机,构建一个智能体的“手机集群”。
从聊天机器人到“能动手”的智能体
Ethan的方案结构清晰,核心如下:
- 在安卓手机上安装Termux(一个安卓上的Linux终端模拟环境)。
- 在Termux中运行OpenClaw Agent。
- 通过Termux API调用安卓系统能力。
- 通过Discord与Agent对话进行交互。
简单来说,这台25美元的手机变成了一个随时待命的“硬件执行节点”。例如,他可以在Discord中发送指令:“Hey Claw,帮我把手电筒打开再关掉。”几秒钟后,手机的手电筒便会亮起,随后熄灭。
背后的流程并不复杂:OpenClaw接收Discord消息,调用Termux API,再由API触发安卓系统接口完成硬件操作。这标志着,原本只有App或系统进程才能完成的动作,现在交给了一个由语言模型驱动的智能体来执行。
Ethan认为,真正有趣的并非“能开手电筒”这个功能本身,而是“模型开始具备物理世界执行能力”这一质的飞跃。
拍照+GPT-4V:解锁入门级设备的视觉能力
为了验证这并非一个“玩具级”演示,他进行了一个更具挑战性的测试。
他命令Agent:“用后置摄像头拍一张照片,然后告诉我你看到了什么。”接着,他将手机对准桌面上一块Raspberry Pi。手机成功拍照并将图片通过Discord传回。随后,图片被送入GPT-4V(GPT-5.2为原文笔误,此处根据技术事实校正)模型进行视觉分析,模型准确地回复:“一块单板计算机,Raspberry Pi,以及连接的USB线缆。”
这个任务实现了完整的“感知—理解—反馈”闭环:低端安卓机负责图像采集,云端大模型负责视觉理解,Discord负责交互,智能体负责流程编排。所有这一切,都在一台价值25美元的硬件上顺畅运行。
不仅能感知手机姿态,还能尝试打电话
实验并未止步于摄像头。Ethan还测试了手机传感器的调用能力。他询问Agent:“现在手机的姿态是什么?”
Agent调用加速度计数据,分析重力方向后回复:手机大致处于竖直直立状态——而当时,手机确实被他竖握在手中。
这表明,Agent已不再仅仅是“文本理解系统”,而是能够读取真实物理世界数据的系统节点。IMU、摄像头、闪光灯等原本服务于App的硬件,如今都成了AI智能体的工具箱。
既然能调用摄像头、读取传感器,那能不能打电话呢?理论上可行。Ethan让Agent在联系人列表中查找“Mike”并尝试拨号。手机确实成功调起了拨号界面并尝试发起通话。不过,由于这是一台没有实际激活SIM卡的预付费手机,通话自然无法接通。
Ethan补充道:“如果想让OpenClaw监听麦克风音频或发送语音,手机需要获取Root权限。但我这台没有Root,所以做不到,因为安卓对通话、音频这类权限设置了非常严格的沙箱隔离。”
未来畅想:搭建一个“手机集群”
当前,不少开发者选择使用Mac Mini或小型服务器来运行Agent集群,其优势在于硬件性能强劲、部署稳定、环境可控。相比之下,Ethan选择在低价手机上跑OpenClaw的决定显得颇具创意。
经过上述演示,Ethan认为这台25美元的廉价手机虽然配置有限,但作为OpenClaw的入门级运行平台,表现已足够出色:“对于许多想尝试OpenClaw但不愿在硬件上投入过多的开发者来说,这类廉价预付费手机是绝佳的选择。它能让你快速上手,体验AI智能体操控硬件的乐趣。”
不过,他也客观地指出,如果预算允许,更推荐使用树莓派运行OpenClaw:
“树莓派搭载的是原生Linux系统,不需要像安卓手机这样,为了绕过系统限制去折腾OpenClaw的配置,使用起来更便捷,也能避免很多兼容性问题。”
关于未来,Ethan透露下一步计划是搭建一个“手机集群”:“现在很多人会购置多台Mac mini来搭建OpenClaw集群,我也想尝试用几台这种廉价安卓手机组成一个集群,每台手机都运行一个OpenClaw智能体,然后通过Discord同时与所有智能体交互,探索能实现哪些更有趣的功能。”
社区的质疑与想象:手机集群,真有用吗?
Ethan的实验视频发布后,评论区的反响不一。
有人直言不讳:“很酷,但我想不出集群控制手机有什么实际用途。”也有人展开了天马行空的想象:
- 低成本安防系统:可以做成一个极低成本的安防监控系统。当手机检测到画面中有移动时,自动录制视频并通过短信或邮件发送给主人。理论上,只要智能体能够串联触发条件与发送逻辑,每一台自带摄像头、网络和传感器的手机都能成为一个分布式监控节点。
- 社交媒体“农场”:也有评论开玩笑说,给所有手机插上SIM卡,它们就能变成一个“社交媒体点赞或互动农场”。
众多评论中,一个更现实的声音值得关注。过去,许多人被模型运行的高昂成本劝退——调用顶级模型API需要持续付费;而能在本地流畅运行的高性能开源模型,往往对内存(动辄40GB以上)有极高要求。对于普通开发者(通常只有10-20GB可用内存)而言,门槛过高。
如今,“云端API + 低端硬件采集”的组合提供了一种折中方案:将繁重的计算交给云端,大模型只负责理解与决策,手机则专注于物理世界的感知与执行。这为更多资源有限但充满创意的开发者打开了参与的大门。
你对Ethan的这项低成本硬件智能体实验怎么看?这会是探索AI与物理世界交互的一种新思路吗?欢迎在云栈社区分享你的见解。
参考链接: