3749 积分	0 好友	512 主题

发消息

阿里通义MAI-UI GUI Agent上线：一句话操控手机App完成多任务

发表于 2026-1-17 03:47:05 | 查看: 58| 回复: 0

由阿里通义团队发布的通用 GUI Agent 基础模型 MAI-UI-8B，现已正式上线模力方舟平台，支持 API 调用体验！

模力方舟平台上的MAI-UI-8B模型信息与价格截图

这是一款专为在真实 App 环境中执行操作任务而设计的智能体模型，具备强大的多任务决策能力、端云协同执行架构，以及前沿的 GUI Grounding（界面理解与定位）能力。无论是淘宝购物、飞猪订票、12306 查班次，还是在钉钉群里发信息，它都能跨应用自动完成复杂任务。

立即体验：https://moark.com/serverless-api?model=MAI-UI-8B

能真正操作手机的智能体

MAI-UI 是一组具备实际执行能力的多模态大模型，支持通过自然语言指令驱动手机 App 操作。它不仅能够理解复杂的用户意图，还能调用设备上的 MCP 工具链完成任务，并具备独特的端云协同能力：当本地模型能力不足时，可自动无缝切换至云端更强大的模型继续执行。

模型覆盖 2B、8B、32B 和云端大模型 235B-A22B 全系列规格，可根据实际部署场景灵活选择。本次模力方舟上线的是其 8B 版本，在保障高效推理性能的同时，也具备了较强的任务泛化能力。

多任务场景演示

办公事务：查 12306 班次 + 改会议 + 群里同步信息

我需要紧急出差上海，帮我去12306查询现在最早从杭州西站去上海虹桥、有二等座票的班次，在钉钉前沿技术研讨群里把到达时间同步给大家，再把我和水番的会议日程改到明天同一时间，在群里发消息@他，礼貌解释因为临时出差调整会议时间，询问他明天是否有空。

（此处原为演示视频，视频内容展示了 MAI-UI 依次操作 12306、钉钉、日历等应用，完成查询、修改、通知等一系列连贯操作。）

生活场景：盒马买菜前，顺手查下老婆的待办

盒马买菜，买一份雪花牛肉卷、一份娃娃菜、一份金针菇，再随便买一个豆制品。对了，去日历中待办里检查下我老婆有什么要在盒马买的，我确认下要不要一起买。

（此处原为演示视频，视频内容展示了 MAI-UI 在盒马应用内搜索添加商品，并切换到日历应用查看待办事项。）

出行导航：帮我规划两段行程、记好笔记

我现在在阿里巴巴云谷园区，我要先去招商银行取钱，再去城西银泰城。帮我规划公交地铁出行的路线，选一家在4公里以内的、用时最短的招商银行，两段行程总时间不要超过2小时，把规划行程记在笔记中我一会看，标题为下午行程，内容为两段行程细节。

（此处原为演示视频，视频内容展示了 MAI-UI 调用地图工具规划路线、计算时间，并将最终方案记录到笔记应用中。）

四大核心能力升级

原生支持端云协同执行

传统的 GUI Agent 要么只能部署在云端，受限于网络和隐私，要么必须轻量化部署在本地设备，能力有限。MAI-UI 引入了原生的端云协同机制：

本地模型作为主执行体，具备基础的 GUI 操作能力；
若执行过程中发现任务失败、指令偏离或本地能力不足，且任务不涉及敏感数据，则会自动切换至云端更强大的模型继续执行；
整个切换过程由统一的「轨迹记忆模块」串联，确保任务上下文不中断。

MAI-UI 端云协同执行架构示意图

根据技术报告，这套协同系统在实测中将纯本地执行的成功率提升了 33%，同时云端调用减少了超过 40%，在隐私保护与计算成本之间取得了良好平衡。

多模态强化学习训练，稳定应对真实环境

为了提升模型在复杂、动态的真实 App 环境中的执行稳定性，MAI-UI 构建了一套高性能的在线深度强化学习训练框架：

训练过程中支持高达 512 并发的移动设备模拟环境，最高可支持 50 步的长链条任务；
采用异步策略采样 (rollout)、混合并行等优化策略，显著降低了训练的资源瓶颈；
能够根据任务成功率动态调整任务难度（自动课程学习），有效避免了训练过程中的崩溃；
引入「行为判定器 + 大模型裁判系统」双轨评估体系，大幅提升了任务完成与否评判的准确性。

MAI-UI 强化学习训练框架 GRPOTrainer

看懂界面的新一代 GUI Grounding 能力

MAI-UI 不止于简单的“点点屏幕”，它是一款能真正看懂复杂 App 界面元素的 Grounding 大模型：

使用「多视角指令生成」策略，从外观、功能、位置、意图等多个维度引导模型深入理解界面；
引入 zoom-in 推理机制，在初步预测出关键操作位置后，会自动放大该区域界面进行更细致的判断；
在训练过程中加入了结构化的 Reasoning 过程，显著提升了模型对界面元素的定位准确率。

Grounding 与感知数据构建流程

在多项权威基准测试中，MAI-UI 均取得了 SOTA（当前最优）成绩：

ScreenSpot-Pro: 73.5%
UI-Vision: 49.2%
MMBench GUI L2: 91.3%

这些成绩均领先于同期的 Seed1.8、Gemini-3-Pro、GUI-Owl 等代表性模型。

支持 ask_user 与 mcp_call 两种扩展操作

MAI-UI 的动作空间并不局限于基础的 UI 操作（点击、滑动、输入等），更支持两类关键的扩展操作，这使其更加智能：

ask_user：当用户指令缺失关键信息（如目的地、联系方式）时，模型会主动向用户提问以获取补充，而非盲目执行导致失败。
mcp_call：能够调用如高德地图、天气查询等外部 API 工具，以更稳定、高效的方式获取信息或完成任务，弥补了纯界面操作的局限性。

MAI-UI 结合扩展操作的任务执行轨迹示例

这意味着，MAI-UI 不再只是一个机械执行预定义指令的工具，而是具备了初步的自主判断、信息补充和计划执行能力。

结语

MAI-UI 代表了一类正在探索人机交互新范式的模型，它打破了传统语音助手、脚本自动化工具的碎片化限制，让“一句话完成复杂任务”逐渐成为现实。对于正在探索 App Agent、GUI 多模态交互、RPA 自动化以及人工智能 Agent 化体验的开发者与企业用户而言，MAI-UI 无疑是一款极具研究与应用价值的模型。

现在即可访问模力方舟平台，亲自体验这个能用一句话操作手机 App 的智能体，探索下一代自动化交互的可能。欢迎在云栈社区分享你的使用心得与技术见解。

体验地址：https://moark.com/serverless-api?model=MAI-UI-8B

上一篇：Redis之父谈AI编程：手写代码的必要性正在消失
下一篇：无需人类标注：Meta与UIUC如何通过自进化让搜索智能体掌握复杂工具使用

MAI-UI, 界面智能体, 多模态大模型, 深度强化学习, 应用自动化