云栈社区»论坛 › 开源实战「 OpenSource 」 › 通义开源Mobile-Agent-v3.5：多端GUI自动化基座模型，20+榜单实 ...

3071 积分	0 好友	405 主题

发消息

[Python] 通义开源Mobile-Agent-v3.5：多端GUI自动化基座模型，20+榜单实现SOTA

发表于 2026-3-4 06:38:57 | 查看: 70| 回复: 0

说起GUI Agent，最尴尬的时刻往往不是简单的误操作，而是它执行了一连串看似合理的动作后，将你带回任务的起点——仿佛在重复上演数字版的《土拨鼠之日》。

为了解决这个核心痛点，阿里通义实验室正式开源了Mobile-Agent-v3.5框架，并发布了新一代多平台GUI Agent基座模型家族 GUI-Owl-1.5。这套模型旨在实现桌面（PC）、移动端（Mobile）和浏览器（Browser）的跨平台统一自动化操作，提供了从2B、4B、8B、32B到235B的多种参数量规格，并包含面向快速执行的Instruct版本和具备深度思考能力的Thinking版本。

项目已在GitHub开源：
https://github.com/X-PLUG/MobileAgent

Mobile-Agent-v3.5系统架构与核心能力图

GUI-Owl-1.5论文性能概览图

论文标题：
MOBILE-AGENT-v3.5: MULTI-PLATFORM FUNDAMENTAL GUI AGENTS

论文链接：
https://arxiv.org/abs/2510.19325

直面真实场景的三大挑战

现有许多GUI Agent在演示中表现流畅，但在复杂的真实环境中常常捉襟见肘。主要挑战集中在三个方面：

数据采集困难：长任务轨迹的人工标注成本极高，且真实环境中的验证码（CAPTCHA）、反爬机制、网络异常等问题频发，导致高质量数据获取艰难。

多平台冲突：手机、桌面和网页的应用在界面布局、交互逻辑和动作空间上存在显著差异。将这些异构平台的数据简单混合训练，容易导致模型学习目标冲突，效果相互抵消。

能力要求全面：真实的自动化任务远不止于“点击按钮”。它通常需要模型具备工具调用（Tool Calling）、记忆管理、知识查询甚至多智能体（Multi-Agent）协同等高级能力，才能完成端到端的工作流。

GUI-Owl-1.5的目标正是将智能体从“会执行原子操作”升级为“能可靠完成复杂任务”。它不仅要在高分辨率、多窗口的专业软件界面上精准定位，还要具备记事、反思、调用工具等综合能力，并在多端训练中保持稳定高效。

模型家族：快速执行与深度思考的组合拳

GUI-Owl-1.5并非单一的“巨无霸”模型，而是一个覆盖不同场景需求的模型家族。

Instruct版本：包含2B、4B、8B、32B规格。该版本不输出中间思考链，直接生成可执行动作，主打低延迟和高效率，非常适合在资源受限的边缘设备上部署，满足实时交互的需求。
Thinking版本：包含8B、32B、235B规格。该版本具备更强的规划、推理和反思能力，通过生成详细的思考链来应对复杂、多步的长周期任务。

这种设计天然支持“端云协作”的实用范式：轻量级的Instruct模型部署在终端，负责高频、快速的界面操作，保证响应速度和用户隐私；强大的Thinking模型部署在云端，负责复杂的任务分解、规划与事后复盘。这种组合让整个系统更像一个可落地的产品方案，而非单一的演示原型。

执行机制：从GUI操作到工具调用的多面手

GUI-Owl-1.5将GUI任务建模为一个多轮决策循环：观察（Observation）- 思考/执行（Action）- 再观察的迭代过程。

其输出采用两段式设计：

Action Conclusion：用自然语言简要描述当前步骤要达成的目标。
Structured Tool Call：输出结构化的、可执行的具体指令，例如点击（Click）、输入（Type）、滚动（Scroll）、拖拽（Drag）等。更重要的是，它支持调用外部工具和Model Context Protocol（MCP）接口。

这意味着，该模型不仅能遵循UI流程进行操作，还能在必要时跳出界面，主动调用外部API或工具来补全任务闭环，例如查询数据库、验证结果、写入日志或与其它系统进行协作。

数据合成体系：攻克复杂界面的精准定位难题

要让模型在4K高分辨率屏幕、堆叠的多窗口以及专业软件（如Visual Studio）的复杂界面中准确识别和定位目标元素，高质量的数据至关重要。

为此，团队构建了一套针对GUI场景的Grounding（元素定位）数据增强体系，重点解决分辨率高、元素密集、窗口遮挡和专业界面晦涩等痛点。该体系包含两条主线：

1. 高难度场景合成

挑战性应用合成：针对复杂或专业软件，基于参考界面和UI元素标注，利用多模态大模型（MLLM）生成逼真的软件截图，并通过严格的质量检查（如元素重叠、位置合理性校验）迭代优化，确保数据的可信度。
多窗口高分辨率合成：将单窗口截图与标注好的元素，结合随机的窗口数量、布局（如1行×2列）和分辨率组合，生成多窗口场景数据。过程中会检查确保目标元素在不同窗口布局下不被遮挡。

2. 规模化数据扩展

从轨迹中挖掘：从真实或仿真的操作轨迹中自动提取grounding数据对（图像-元素），并使用批评者（Critic）模型过滤低质量样本。
生成相关问答：从应用教程视频的字幕或知识库中，提炼生成与界面元素定位相关的问答（QA）数据。
生成负样本：专门合成“不可行”的grounding负样本（例如要求点击一个不存在的按钮），训练模型在找不到目标时能够正确判断并停止，而不是胡乱点击。

复杂Grounding数据合成流程图

长轨迹生成：用DAG取代随机探索

为了保证长程、多步骤任务轨迹的质量和逻辑性，团队引入了有向无环图（DAG） 来组织任务流程。图中的节点代表子任务，边代表子任务间的可达关系。

具体流程如下：

在预先定义好的DAG上采样一条任务路径，并生成相应的自然语言指令，以覆盖真实的高频工作流。
在真实设备或云端沙箱环境中自动执行（Rollout）该任务。
每个子任务都设有检查点（Checkpoint）谓词来判断是否成功完成。成功则收录轨迹；失败则截断至最后一个正确的检查点，并将剩余未完成部分交给修复流程处理，从而确保用于训练的监督信号是干净、准确的。
对于极其困难的案例，则辅以少量的人工示范进行补充。

此外，为了应对真实网页环境中的验证码、反爬机制导致轨迹中断的问题，团队还构建了Web-Rendering虚拟环境。在这个可控环境中，可以精确获取子任务完成信号，并能通过脚本或RPA工具低成本、大批量地生成高质量的原子操作轨迹（如文档编辑、表格处理等）。

基于DAG的轨迹收集与验证管道图

能力增强：赋予智能体助理级的“思考力”

仅仅模仿人类的下一步点击动作，很容易将智能体训练成只有“手速”没有“脑力”的操作员。为了让其真正像助理一样工作，团队从三个维度进行了能力增强：

1. 注入GUI领域知识
从软件官方文档、社区教程、技术论坛和问答平台爬取相关信息，经过清洗和重写，构建为问答对或视觉问答数据。这让模型获得了“软件常识”，知道特定功能通常位于哪里，常见的操作路径是什么，以及如何将用户的自然语言描述映射到具体的界面操作。

2. 学习状态变化预测
从成功的操作轨迹中构造“动作-状态转移”描述数据：给定当前屏幕截图和执行的动作，让模型学习预测下一屏幕会发生什么变化（如弹出对话框、文本更新、焦点转移等）。这赋予了模型在行动前预判结果的能力，是其进行规划的基础。

3. 统一思维链合成
将轨迹的每一步都增强为结构化的推理过程，包括：

观察：提取与当前任务相关的屏幕关键信息。
记忆：决定需要将哪些信息写入长期或短期记忆。
反思：判断动作结果是否符合预期，如果不符合则进行纠错推理。
进度更新：明确当前任务的整体进展。
工具推理：在需要时，给出选择调用特定工具或MCP接口的理由。
这种统一的Thought-Synthesis流程显著提升了模型处理长程任务的稳定性和可靠性。

MRPO算法：解决多平台强化学习的“内耗”问题

在多平台统一的强化学习训练中，很容易出现两个问题：一是不同平台（移动、桌面、网页）的梯度更新方向相互冲突，导致训练震荡；二是在分组强化学习（如GRPO）中，同一组内的样本成功率要么全高要么全低，导致训练信号失效或方差过大。

为此，团队提出了 MRPO（Multi-platform Reinforcement Policy Optimization） 算法，其核心设计包括：

设备条件化统一策略：使用一个统一的策略模型处理所有平台，但通过显式地输入设备类型作为条件信号，让模型自适应地学习不同平台的交互模式差异。
在线滚动缓冲区：首先进行多轮on-policy采样以扩充缓冲区，再进行分组。如果某小组样本同质化严重（全正或全负），则从缓冲池中随机替换一条样本，以增加组内多样性，同时保持on-policy特性。
Token-ID传输对齐：在环境端执行模型推理后，不仅返回动作文本，还将对应的token ID序列一并返回给训练器。这样，训练器可以使用完全相同的离散token序列计算对数概率，避免了因环境端与训练端分词器（Tokenizer）细微差异导致的KL散度或策略梯度估计偏差。
交替多平台优化：采用按平台轮换训练的方式，依次在移动、桌面、网页数据上进行优化，减少同步更新带来的“梯度拉扯”，有助于稳定收敛并保持良好的跨平台泛化能力。

MRPO多平台滚动器与训练器架构图

性能表现：在20+基准测试中达到开源SOTA

GUI-Owl-1.5在GUI自动化、元素定位、工具调用、知识与记忆四大方向上，覆盖了超过20个主流基准测试，并取得了领先的开源模型成绩。部分代表性结果如下：

端到端自动化

OSWorld-Verified: 56.5 (32B-Instruct)
AndroidWorld: 71.6 (8B-Thinking)
WebArena: 48.4 (32B-Thinking)
VisualWebArena: 46.6 (32B-Thinking)

工具/MCP调用

OSWorld-MCP: 47.6 (32B-Instruct)
MobileWorld: 46.8 (32B-Instruct)

高分辨率元素定位

ScreenSpot-Pro: 72.9 (不使用裁剪)
ScreenSpot-Pro: 80.3 (使用两阶段裁剪优化)

知识与记忆

GUI Knowledge Bench: 75.5 (32B)
MemGUI-Bench (Easy): 27.1 (在原生模型对比中显著领先)

GUI-Owl-1.5在多个基准测试上的性能对比柱状图

总结与展望

如果你正在研究或开发面向计算机（Computer Use）、移动设备（Mobile Use）或浏览器（Browser Use）的自动化智能体，需要实现跨平台的统一控制，希望将GUI操作与工具调用、MCP协议结合以编排复杂工作流，或者正在寻找“轻量终端模型+强大云端模型”的协同部署方案，那么GUI-Owl-1.5模型家族及其Mobile-Agent-v3.5框架提供了一个值得深入评估的基座选择。

保证一个智能体永远不出错是极其困难的，毕竟人类操作员也会失误。但该团队的核心目标在于：让智能体在出错时能够自主察觉，并在察觉后能够有效纠正，从而避免将用户的宝贵时间浪费在无意义的循环操作上。这标志着GUI Agent正从“看起来聪明”的演示阶段，迈向“真正可用”的工程化阶段。对该开源项目感兴趣的研究者与开发者，可以访问其GitHub仓库获取模型、代码并参与社区建设。

上一篇：M4芯片逆向实战：解锁神经网络引擎，跑通Transformer模型训练
下一篇：TEM电子能量损失谱(EELS)详解：原理、仪器与应用分析

图形界面代理, 多端自动化, Mobile-Agent, GUI-Owl-1．5, 强化学习