继豆包手机展示了AI跨应用自动操作的能力后,智谱AI与阶跃星辰接连开源了AutoGLM和GELab-Zero等具备“Phone Use”能力的视觉语言模型。

这些开源模型是多模态的,旨在训练AI理解手机屏幕界面,并模拟人类的点击、滑动和输入操作。它们能够完成长达数十步的复杂任务流程,支持微信、淘宝、抖音、美团等50多个高频应用。对于本地部署受限的用户,也可以直接调用模型提供商提供的API接口。
然而,这些项目的官方实现大多基于命令行交互。想要体验AutoGLM或GELab-Zero,用户需要配置Python环境、安装依赖库、设置ADB(Android Debug Bridge),并且需要在电脑和手机屏幕之间来回切换,整个过程对非开发者不够友好,配置过程繁琐耗时。
既然模型能力已被验证,且提供了便捷的API,为什么不能有一个通用的图形化界面(GUI)Agent来降低使用门槛呢?为此,我们构建并开源了 OMG-Agent。
什么是OMG-Agent?
OMG-Agent,全称为 Open-sourced Mobile GUI Agent ,是一个开源的移动端图形界面智能体框架。我们更愿意称它为“Oh My God Agent”,因为在测试时,你可以直观地通过GUI观察AI如何操作你的手机,并见证任务被一步步完成,那种体验确实令人惊叹。

这个项目的核心目标,是作为AutoGLM、GELab-Zero等开源GUI模型的操作前端,让更多人能够轻松体验和使用这类先进的“手机使用”模型。它通过ADB与手机通信,这是一个强大但并非黑科技的命令行工具。

核心功能与使用方式
OMG-Agent致力于简化整个使用流程:
- 图形化操作:所有配置和执行过程均在GUI中完成,无需记忆复杂命令。
- 即开即用:我们计划提供打包好的可执行文件(exe/dmg),实现零配置双击运行(Win/Mac版本正在测试中)。
- 开发者友好:同时也支持从源码运行,方便开发者进行调试和二次开发。
对于开发者,可以通过以下命令快速启动项目:
git clone https://github.com/safphere/OMG-Agent.git
cd OMG-Agent
pip install -r requirements.txt
python run.py

基础使用流程:打开OMG-Agent软件,通过有线或无线方式连接手机并开启投屏,在任务输入框中用自然语言描述你的需求(例如“打开微信,找到张三的聊天框,问他晚上要不要一起吃饭”),点击执行即可观察AI的自动化操作过程。
支持模拟器与架构设计
考虑到测试便利性和无真机环境,OMG-Agent 同样支持通过ADB连接Android模拟器。

这对于应用开发调试、自动化脚本测试等场景非常有用,无需担心真机的电量与发热问题。项目文档中提供了MuMu、雷电、夜神等主流模拟器的连接配置参考。
对于希望深入研究GUI Agent实现机制或进行定制化开发的伙伴,项目代码完全开源,并附有详细文档。其核心架构清晰分层,便于理解:

模型兼容性与项目愿景
OMG-Agent在设计上力求通用,其模型调用层兼容 OpenAI SDK API 规范,这意味着它不仅可以便捷地接入 AutoGLM、GELab-Zero 的官方API,理论上也能接入其他遵循相同规范的模型服务。

我们的终极理想是:让即使不懂编程、不愿配置环境的普通用户,也能下载即用,亲眼看到AI如何在手机上工作。让它从一个新闻概念,变成一个真正能解决问题的工具,为未来更强大的手机智能体(Phone Agent)开发铺路。
豆包手机此前遇到的问题,本质上是创新技术与现有平台规则之间的碰撞。但技术的进步不应由单一公司定义。AutoGLM和GELab-Zero的开源已经证明了技术的可行性,接下来的发展只是时间问题。
我们深知当前的OMG-Agent远非完美,其内部的智能体逻辑也还有很大的优化空间。但开源的价值就在于此——它让技术发展更加透明,允许更多人参与进来,共同迭代。手机Agent目前或许仍显简陋,但总需要有人迈出第一步。
许可与免责声明
OMG-Agent 采用 Apache 2.0 with Commons Clause 许可证开放源代码。我们开源的本意是促进学习研究与技术探索,不希望它被用于商业割韭菜或任何非法用途。
⚠️ 免责声明
本项目仅供学习研究和技术探索使用,严禁用于任何商业用途。使用本工具时,请遵守相关法律法规以及手机厂商、应用程序的使用条款和服务协议。用户因使用本项目产生的任何行为和后果,均由用户自行承担,与本项目及开发者无关。
重要提醒:基于ADB的自动化操作,与豆包手机类似,仍有可能触发应用平台的风控机制,导致账号受限。强烈建议大家在备用机和备用账号上进行测试和体验。
欢迎体验与共建
如果你对AutoGLM、GELab-Zero等开源模型感兴趣,却苦于环境配置;或者单纯对“AI操作手机”感到好奇,想亲手试一试,那么OMG-Agent会是一个不错的起点。
项目地址:https://github.com/safphere/OMG-Agent
我们将持续优化OMG-Agent,从更好地适配现有开源模型,到未来可能训练定制化模型,目标是让GUI Agent更加智能、稳定。技术探索的道路上,交流与碰撞至关重要,欢迎所有开发者与爱好者关注后续进展。开源的精神在于协作与共享,我们也欢迎你将在云栈社区的探索经验与更多同好交流。