AutoGLM 是由智谱 AI 推出的一款前沿的 AI智能体 应用。它能够理解人类的自然语言指令,自主规划操作路径并识别手机屏幕内容,模拟人类点击、滑动等操作,从而自动化执行各类任务。而 AutoGLM-GUI 则是为其量身打造的现代化 Web 图形界面,将原本通过命令行操作的复杂流程变得直观简单,大大降低了使用门槛。

核心特性
- 分层代理模式 - 🆕 采用决策模型与视觉模型双层协作架构,将复杂的任务规划与精准的界面操作执行分离,提升了处理复杂任务的可靠性。
- 完全无线配对 - 🆕 对于 Android 11+ 设备,支持二维码扫码配对,无需数据线即可连接和控制设备。
- 多设备并发控制 - 可同时管理和控制多个 Android 设备,且设备间的状态完全隔离。
- 对话式任务管理 - 通过直观的聊天界面向 AI 助手下达指令,控制 Android 设备。
- Workflow 工作流 - 🆕 支持预定义常用任务流程(如“每日签到”、“点奶茶”),实现一键快速执行。
- 实时屏幕预览 - 基于 scrcpy 提供低延迟的手机屏幕视频流,可实时查看 AI 执行操作的过程。
- 直接操控手机 - 可以在实时画面上直接点击、滑动进行操作,并支持精准的坐标转换。
- 零配置部署 - 支持任何 OpenAI 兼容的大语言模型 API 服务。
- ADB 深度集成 - 通过 Android Debug Bridge 直接控制设备,支持 USB 和 WiFi 两种连接方式。
准备工作
- Android 设备:Android 11+ 支持完全无线配对;Android 10 及以下版本需先用 USB 线连接并开启无线调试,之后可无线使用。
- 大模型 API:需要一个 OpenAI 兼容的 API 端点,支持智谱 BigModel、ModelScope 或自行搭建的服务。
安装部署
推荐使用 Docker Compose 进行部署,这是最快捷的方式。
Docker Compose 配置文件 (docker-compose.yml):
services:
autoglm-gui:
image: ghcr.io/suyiiyii/autoglm-gui:main
container_name: autoglm-gui
ports:
- 8080:8000
volumes:
- ./autoglm_config:/root/.config/autoglm
- ./autoglm_logs:/app/logs
restart: unless-stopped
参数说明:
./autoglm_config:映射到容器内 /root/.config/autoglm,用于持久化保存软件配置。
./autoglm_logs:映射到容器内 /app/logs,用于保存运行日志。
- 网络提示:为了便于 ADB 设备发现和二维码配对,在生产环境中更推荐使用
host 网络模式。本文示例为演示方便,采用了桥接模式。
保存文件后,在终端中执行 docker-compose up -d 即可启动服务。
配置与使用
服务启动后,在浏览器中访问 http://你的NAS_IP地址:8080 即可打开 AutoGLM-GUI 界面。
1. 配置大模型 API
首次打开会弹出配置窗口,需要设置视觉模型和决策模型所需的 API。

提供商支持智谱 BigModel、ModelScope(魔搭社区) 以及任何兼容 OpenAI 的自建服务(如 vLLM)。考虑到 AutoGLM 是智谱的开源项目,其模型可能做了特定优化,因此建议优先使用智谱的 API。

点击“智谱 BigModel”选项,界面会跳转到智谱 AI 的官方控制台。登录后,在 API Key 管理页面创建一个新的密钥。

获取到 API Key 后(格式为 {id}:{secret}),将其填写回 AutoGLM-GUI 的配置窗口中。

用同样的方法配置“决策模型”选项卡。填写相同的 Base URL 和 API Key,模型名称可填写 glm-4 等智谱支持的模型。

2. 连接 Android 设备
配置完成后,主界面会显示设备列表。点击“添加无线设备”开始连接。

连接方式有三种:
- 直接连接:适用于安卓模拟器或已知 IP 端口的设备,需要手动填写 IP 和端口号(如模拟器常用
5555)。
- 配对设备:适用于 Android 11+ 的物理手机。在手机“开发者选项”中开启“无线调试”,使用“使用二维码配对设备”功能扫描界面提供的二维码即可完成无线配对,无需数据线。
- 远程设备:用于连接已运行 ADB 服务的远程设备。
本文以 MuMu 模拟器为例:
首先,在模拟器设置中开启 ADB 调试,并确保使用默认端口(如 5555)。

然后在 AutoGLM-GUI 中选择“直接连接”,填写运行模拟器的主机 IP 地址和端口号(例如 192.168.31.148:5555)。

连接成功后,界面右侧会实时显示模拟器的屏幕画面。

3. 基础功能体验
连接设备后,你就可以通过对话输入框向 AI 助手下达指令了。为了演示,我们预先在模拟器中安装了几个常用 APP。

- 简单查询:询问“当前界面有什么 app 应用”,AI 能准确识别并描述屏幕上的应用图标。

- 模糊指令:发出“我想听红莲华”的指令,AI 会自动打开网易云音乐 APP,完成搜索、点击播放等一系列操作。

- 复杂任务:尝试更复杂的指令“打开淘宝,帮我找一台性价比高,价格在千元以下的 NAS 设备,加入到购物车”。AI 成功完成了打开应用、搜索关键词、浏览商品、选择型号并加入购物车的完整流程。这充分展示了其在 云原生 和智能硬件选购场景下的自动化潜力。

提示:在测试过程中,有时会遇到 AI 在输入框操作上的小问题(如重复点击同一位置),这可能与模拟器环境或屏幕识别精度有关。在实际手机或调整设置后通常可以解决。
4. 进阶功能
- 工作流(Workflow):你可以为常用任务创建详细的工作流脚本。例如,创建一个名为“点霸王茶姬”的工作流,详细描述店铺、饮品、规格要求等。创建后,只需选择该工作流即可一键执行,无需每次重复描述。

- 对话历史:所有与 AI 助手的交互记录都会被保存,方便回顾任务执行过程和结果。

- 定时任务:这是最具想象力的功能之一。你可以将创建好的工作流与 Cron 表达式结合,设定定时自动执行。这意味着完全可以实现“每日自动签到”、“每周一上午9点自动点咖啡”等自动化场景。

总结与展望
将 人工智能 与移动设备深度结合,让普通的安卓手机或模拟器也能通过一句话指令完成复杂任务,这是 AutoGLM 带来的核心价值。此前,AutoGLM 的使用有一定技术门槛,而 AutoGLM-GUI 的出现,特别是其便捷的 Docker 化部署方式,使得这项技术变得非常易于获取和体验。
从点外卖、查信息到自动化签到、购物比价,其应用场景十分广泛。随着模型能力和工具链的持续完善,这类 AI 智能体有望成为我们真正的数字生活助理。如果你对 AI 自动化感兴趣,不妨在 云栈社区 分享你的使用心得或探索更多有趣的玩法。