找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1072

积分

0

好友

153

主题
发表于 5 天前 | 查看: 14| 回复: 0

图片

2025年12月9日,智谱AI正式宣布开源AutoGLM项目。这是一个能够真正“看懂手机界面并完成实际操作”的AI智能体(AI Agent),标志着AI能力从“会聊天”向“会使用手机”的实用化迈进。项目研发历时32个月,已形成完整的Phone Use能力体系,可实现视觉理解、界面识别、点击、滑动、输入等全套操作,其核心愿景是让每一台手机都能成为AI手机

📌 开源地址

👉 GitHub: https://github.com/zai-org/Open-AutoGLM
(采用MIT + Apache-2.0双许可证)

一、AutoGLM 是什么?

AutoGLM是一个能够在真实手机环境中“像人一样使用App”的智能体。它通过视觉识别手机界面,再结合动作控制指令(如点击、滑动、输入文字),实现跨应用、跨场景的自动化任务执行,本质上是一个通用手机操作AI框架

目前官方开源内容已提供:

  • 50+款中文主流App的可运行Demo
  • 完整训练好的核心模型
  • 完整的Phone Use能力框架
  • 配套文档、工具链与插件系统

二、研发背景:从简单指令到系统化理解

AutoGLM的立项始于2023年4月。早期的“手机Agent”往往只能完成极其简单的预定操作,一旦遇到复杂界面、弹窗或网络延迟,就容易失败或卡死。为了突破这一瓶颈,研发团队经历了32个月的迭代,逐步完成了三个关键阶段的演进:

  1. 建立可泛化的手机视觉理解能力
  2. 构建跨应用通用的动作抽象体系
  3. 打造能在真实环境中抗干扰、具备恢复能力的稳定框架
    最终形成了现在这套完整的Phone Use能力系统。

三、核心技术实现详解

1. 视觉驱动的界面理解

AutoGLM并非调用“无障碍服务”或依赖App内部代码结构,其核心是基于大模型的视觉识别能力。它通过分析屏幕截图来理解按钮含义、界面布局与整体语义,像人类一样通过“看屏幕”来判断下一步操作。这种方式具备极强的通用性,原则上只要人类能看懂的界面,AI就能尝试操作。

2. Phone Use基础动作体系

研发团队将复杂的手机操作拆解为可自由组合的原子动作(atomic actions),包括:

  • tap(点击)
  • swipe(滑动)
  • text(输入)
  • screenshot(截图)
  • understand(界面理解)

系统能够将自然语言指令(例如:“帮我点一份外卖”)自动转化为稳定、可重复执行的动作序列,确保在不同App版本和多样化的界面设计上保持较好的兼容性。

3. 注重稳定性的系统设计

为了提升在实际环境中的可靠性,AutoGLM的训练与测试覆盖了大量真实场景中的干扰因素,例如:

  • 广告/弹窗遮挡
  • 网络加载异常
  • 界面跳转失败
  • 误触与重复操作
  • 多步骤流程意外中断

系统内部集成了相应的恢复策略,能够自动进行重试、重新理解界面状态或回溯操作步骤,从而大幅提升复杂任务的成功率。

4. 广泛的跨应用通用性

目前,AutoGLM已适配超过50款国内高频使用的App,涵盖多种类型:

  • 社交支付:微信、支付宝
  • 电商购物:淘宝、拼多多
  • 本地生活:美团、饿了么
  • 内容平台:抖音、小红书
  • 以及地图、工具类等多种应用

这使其能够真正实现“一个AI操作所有App”,完成从订外卖、购买火车票到批量处理消息通知等完整流程。

5. 基于ADB的真实操作模拟

AutoGLM通过Android Debug Bridge(ADB)来执行最终的实际操作。这种方式的特点是:

  • 并非向App注入脚本
  • 不依赖或绕过系统的辅助功能
  • 不修改任何App的内部逻辑

它在系统层面模拟真实用户行为,因此更为稳定和通用,也更接近于理想的“手机使用AI助手”模式。

四、隐私与部署:面向企业与专业场景

考虑到实际应用中的隐私与安全需求,智谱AI提供了私有化部署方案。在该模式下,所有数据处理与任务执行:

  • 不会上传至云端
  • 不会传输给任何第三方
  • 可以完全在用户自有的服务器或本地环境中完成

这一特性对于企业业务流程自动化、以及在金融、医疗、政务等隐私敏感场景下的应用具有关键价值。




上一篇:Linux运维指南:通过进程ID快速定位程序路径与工作目录
下一篇:GESP C++六级数据结构精讲:栈、队列与STL实现及算法应用
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 22:31 , Processed in 0.104217 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表