找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2306

积分

0

好友

323

主题
发表于 昨天 03:47 | 查看: 4| 回复: 0

由阿里通义团队发布的通用 GUI Agent 基础模型 MAI-UI-8B,现已正式上线模力方舟平台,支持 API 调用体验!

模力方舟平台上的MAI-UI-8B模型信息与价格截图

这是一款专为在真实 App 环境中执行操作任务而设计的智能体模型,具备强大的多任务决策能力、端云协同执行架构,以及前沿的 GUI Grounding(界面理解与定位)能力。无论是淘宝购物、飞猪订票、12306 查班次,还是在钉钉群里发信息,它都能跨应用自动完成复杂任务。

立即体验https://moark.com/serverless-api?model=MAI-UI-8B

能真正操作手机的智能体

MAI-UI 是一组具备实际执行能力的多模态大模型,支持通过自然语言指令驱动手机 App 操作。它不仅能够理解复杂的用户意图,还能调用设备上的 MCP 工具链完成任务,并具备独特的端云协同能力:当本地模型能力不足时,可自动无缝切换至云端更强大的模型继续执行。

模型覆盖 2B、8B、32B 和云端大模型 235B-A22B 全系列规格,可根据实际部署场景灵活选择。本次模力方舟上线的是其 8B 版本,在保障高效推理性能的同时,也具备了较强的任务泛化能力。

多任务场景演示

办公事务:查 12306 班次 + 改会议 + 群里同步信息

我需要紧急出差上海,帮我去12306查询现在最早从杭州西站去上海虹桥、有二等座票的班次,在钉钉前沿技术研讨群里把到达时间同步给大家,再把我和水番的会议日程改到明天同一时间,在群里发消息@他,礼貌解释因为临时出差调整会议时间,询问他明天是否有空。

(此处原为演示视频,视频内容展示了 MAI-UI 依次操作 12306、钉钉、日历等应用,完成查询、修改、通知等一系列连贯操作。)

生活场景:盒马买菜前,顺手查下老婆的待办

盒马买菜,买一份雪花牛肉卷、一份娃娃菜、一份金针菇,再随便买一个豆制品。对了,去日历中待办里检查下我老婆有什么要在盒马买的,我确认下要不要一起买。

(此处原为演示视频,视频内容展示了 MAI-UI 在盒马应用内搜索添加商品,并切换到日历应用查看待办事项。)

出行导航:帮我规划两段行程、记好笔记

我现在在阿里巴巴云谷园区,我要先去 招商银行取钱,再去城西银泰城。帮我规划公交地铁出行的路线,选一家在4公里以内的、用时最短的招商银行,两段行程总时间不要超过2小时,把规划行程记在笔记中我一会看,标题为下午行程,内容为两段行程细节。

(此处原为演示视频,视频内容展示了 MAI-UI 调用地图工具规划路线、计算时间,并将最终方案记录到笔记应用中。)

四大核心能力升级

原生支持端云协同执行

传统的 GUI Agent 要么只能部署在云端,受限于网络和隐私,要么必须轻量化部署在本地设备,能力有限。MAI-UI 引入了原生的端云协同机制:

  • 本地模型作为主执行体,具备基础的 GUI 操作能力;
  • 若执行过程中发现任务失败、指令偏离或本地能力不足,且任务不涉及敏感数据,则会自动切换至云端更强大的模型继续执行;
  • 整个切换过程由统一的「轨迹记忆模块」串联,确保任务上下文不中断。

MAI-UI 端云协同执行架构示意图

根据技术报告,这套协同系统在实测中将纯本地执行的成功率提升了 33%,同时云端调用减少了超过 40%,在隐私保护与计算成本之间取得了良好平衡。

多模态强化学习训练,稳定应对真实环境

为了提升模型在复杂、动态的真实 App 环境中的执行稳定性,MAI-UI 构建了一套高性能的在线深度强化学习训练框架:

  • 训练过程中支持高达 512 并发的移动设备模拟环境,最高可支持 50 步的长链条任务;
  • 采用异步策略采样 (rollout)、混合并行等优化策略,显著降低了训练的资源瓶颈;
  • 能够根据任务成功率动态调整任务难度(自动课程学习),有效避免了训练过程中的崩溃;
  • 引入「行为判定器 + 大模型裁判系统」双轨评估体系,大幅提升了任务完成与否评判的准确性。

MAI-UI 强化学习训练框架 GRPOTrainer

看懂界面的新一代 GUI Grounding 能力

MAI-UI 不止于简单的“点点屏幕”,它是一款能真正看懂复杂 App 界面元素的 Grounding 大模型:

  • 使用「多视角指令生成」策略,从外观、功能、位置、意图等多个维度引导模型深入理解界面;
  • 引入 zoom-in 推理机制,在初步预测出关键操作位置后,会自动放大该区域界面进行更细致的判断;
  • 在训练过程中加入了结构化的 Reasoning 过程,显著提升了模型对界面元素的定位准确率。

Grounding 与感知数据构建流程

在多项权威基准测试中,MAI-UI 均取得了 SOTA(当前最优)成绩:

  • ScreenSpot-Pro: 73.5%
  • UI-Vision: 49.2%
  • MMBench GUI L2: 91.3%

这些成绩均领先于同期的 Seed1.8、Gemini-3-Pro、GUI-Owl 等代表性模型。

支持 ask_user 与 mcp_call 两种扩展操作

MAI-UI 的动作空间并不局限于基础的 UI 操作(点击、滑动、输入等),更支持两类关键的扩展操作,这使其更加智能:

  • ask_user:当用户指令缺失关键信息(如目的地、联系方式)时,模型会主动向用户提问以获取补充,而非盲目执行导致失败。
  • mcp_call:能够调用如高德地图、天气查询等外部 API 工具,以更稳定、高效的方式获取信息或完成任务,弥补了纯界面操作的局限性。

MAI-UI 结合扩展操作的任务执行轨迹示例

这意味着,MAI-UI 不再只是一个机械执行预定义指令的工具,而是具备了初步的自主判断、信息补充和计划执行能力。

结语

MAI-UI 代表了一类正在探索人机交互新范式的模型,它打破了传统语音助手、脚本自动化工具的碎片化限制,让“一句话完成复杂任务”逐渐成为现实。对于正在探索 App Agent、GUI 多模态交互、RPA 自动化以及人工智能 Agent 化体验的开发者与企业用户而言,MAI-UI 无疑是一款极具研究与应用价值的模型。

现在即可访问模力方舟平台,亲自体验这个能用一句话操作手机 App 的智能体,探索下一代自动化交互的可能。欢迎在 云栈社区 分享你的使用心得与技术见解。

体验地址https://moark.com/serverless-api?model=MAI-UI-8B




上一篇:Redis之父谈AI编程:手写代码的必要性正在消失
下一篇:无需人类标注:Meta与UIUC如何通过自进化让搜索智能体掌握复杂工具使用
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-18 18:11 , Processed in 0.309709 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表