L2.初级
498
0
68
Phone Agent 是一个基于 AutoGLM 框架开发的手机端智能助理。它能够以多模态方式感知和理解手机屏幕内容,并通过自动化操作帮助用户完成任务。该系统的核心工作流是:首先利用 ADB(Android Debug Bridge)与设备建立连接,然后借助视觉语言模型对当前屏幕状态进行感知与分析。系统会结合其智能规划能力,生成并执行一系列操作步骤。
用户只需用自然语言下达指令,例如“打开小红书搜索美食”,Phone Agent 便会自动解析用户意图、理解当前界面、规划下一步动作并执行,最终完成整个任务流程。值得注意的是,系统内置了安全机制,在执行涉及敏感信息的操作(如支付、登录)前会请求用户确认,并在遇到验证码等复杂场景时支持人工接管,确保了使用的安全性与灵活性。它还支持通过 WiFi 或网络进行远程 ADB 连接,方便开发者进行远程控制与调试。
参考文献 [1] https://github.com/zai-org/Open-AutoGLM [2] https://huggingface.co/zai-org/AutoGLM-Phone-9B [3] https://modelscope.cn/models/ZhipuAI/AutoGLM-Phone-9B
收藏0回复 显示全部楼层 举报
发表回复 回帖后跳转到最后一页
手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )
GMT+8, 2025-12-11 05:10 , Processed in 0.076722 second(s), 40 queries , Gzip On.
Powered by Discuz! X3.5
© 2025-2025 云栈社区.