大佬

2038 积分	0 好友	268 主题

发消息

[Python] 美团开源EvoCUA登顶OSWorld，多模态操作智能体实战解析

发表于 2026-1-27 01:13:26 | 查看: 58| 回复: 0

随着人工智能技术的飞速发展，大模型在自然语言处理和计算机视觉等领域已取得显著成果。然而，面对复杂的图形界面操作任务——比如用Excel处理数据、在PPT里制作图表——现有模型的表现往往不尽如人意。美团技术团队最新开源的EvoCUA模型，正是瞄准这一痛点，通过一系列创新的数据合成与训练方法，为计算机操作自动化带来了令人兴奋的突破。

EvoCUA在HuggingFace的官方介绍页

一、项目概述

EvoCUA (Evolving Computer Use Agent) 是一款由美团开源的多模态智能体，其核心使命是实现计算机操作的自动化。它能够接收自然语言指令，并结合对屏幕截图的理解，对Chrome、Excel、PowerPoint等主流应用程序进行端到端的多轮交互操作。这标志着AI在真实操作系统环境下的执行能力迈上了新台阶。

在权威的OSWorld评测基准中，EvoCUA以56.7%的任务成功率位居所有开源模型榜首，这一成绩甚至超越了多个知名的业界闭源竞品。

二、核心功能

（一）多轮上下文交互

EvoCUA并非一次性的指令执行器。它支持在动态变化的桌面环境中进行多轮、连续的交互。例如，当用户要求“在PPT第三页插入一个柱状图”时，模型会先截取当前幻灯片界面，识别图表插入点的位置，然后执行精确的点击、拖拽等操作，并根据反馈进行下一步。

（二）自然语言驱动的自动化

模型能够解析并执行复杂的自然语言指令，完成跨应用的任务链条。想象一下这样的场景：“从某某新闻网站抓取今日科技板块头条，整理成摘要，并插入到我们公司的周报PPT模板里。” EvoCUA的目标就是让这类跨应用、多步骤的办公自动化成为可能。

（三）视觉-语言深度融合

EvoCUA同步处理屏幕截图（视觉信息）和用户指令（语言信息），实现了更鲁棒、更细粒度的操作意图理解。这种深度的融合能力，是其能够准确“看清”界面元素并“执行”对应操作的关键，显著提升了任务完成的准确性和效率。

（四）低步数高完成率

通过结构化的动作空间建模与路径规划优化，EvoCUA倾向于在更少的交互轮次内达成任务目标。这意味着它不仅要做对，还要尽可能地做得快，在速度与准确性之间找到了一个优秀的平衡点。

（五）完全开源可定制

作为一项诚意十足的开源贡献，EvoCUA的代码、完整的训练流程以及预训练权重全部公开在GitHub和HuggingFace上。这极大地方便了研究者和开发者进行二次开发、领域适配（比如针对特定行业软件）与能力扩展。

三、技术揭秘

（一）数据合成与训练方法

高质量的训练数据是模型能力的基石。EvoCUA采用了一套创新的数据合成方法，能够自动生成海量、高质量的训练数据，用以模拟真实世界中千变万化的计算机操作任务。其训练方法经过精心设计，旨在不损害模型通用性能的前提下，显著拔高其计算机使用能力。

（二）强化学习优化机制

在训练过程中，EvoCUA引入了强化学习技术。模型像一个在环境中不断试错的学习者，通过奖励机制来优化自身的行为策略。在多轮交互中，它学习哪些操作序列能更高效地达成目标，从而逐步找到最优的操作路径。

（三）混合模型架构设计

EvoCUA的根基是强大大型语言模型（LLM）和视觉语言模型（VLM），这赋予了它卓越的语言理解和生成能力，以及处理视觉信息的能力。通过一套特定的提示工程和指令解析机制，模型能够将用户模糊的自然语言指令，转化为操作系统可执行的具体操作命令（如点击坐标、输入文本、按键等）。

四、基准评测

在OSWorld基准测试中，EvoCUA取得了56.7%的成功率，创造了开源模型的新纪录。这一成绩大幅超越了此前最好的开源模型OpenCUA-72B（45.0%），也领先于知名的闭源模型UI-TARS-2（53.1%）。更值得一提的是，EvoCUA在不同参数规模的基础模型上均实现了稳定的性能提升，这证明了其方法强大的通用性和可扩展性。

OSWorld基准测试中开源与闭源模型的排名对比

五、应用场景

（一）智能办公助理

EvoCUA可以自动执行Excel数据处理、PowerPoint幻灯片制作、Word文档编辑等重复性办公任务。例如，根据“将销售数据按地区生成饼图并添加趋势分析”这样的指令，自动完成从数据整理到图表生成的全过程，大幅提升工作效率。

（二）智能测试与研发提效

在软件开发领域，EvoCUA可用于自动化UI测试、生成基础测试脚本，甚至辅助低代码界面搭建。它能够模拟用户操作，自动检测界面异常，从而加速产品的测试与迭代周期。

（三）自助技术支持系统

用户可以通过自然语言描述软件使用中遇到的问题，EvoCUA能够理解问题，并尝试通过实际操作来复现问题、定位原因，甚至提供一步步的修复指导，实现7x24小时的自动化初级技术支持。

（四）教育内容生成与实操教学

它可以用来生成带有操作演示的教学课件或互动式实验指南。例如，根据“教授如何用Photoshop抠图”的指令，自动生成一套分步操作的屏幕录制脚本或图文教程。

（五）自然语言数据分析平台

对接数据平台后，EvoCUA可以接收“分析上周用户留存率，并与前月对比”这样的口语化查询，自动调用相关工具完成数据查询、清洗、计算，并生成可视化图表和简要报告。

六、快速使用指南

（一）环境准备

推荐使用 Python 3.12，通过以下命令克隆项目并安装依赖：

git clone https://github.com/meituan/EvoCUA.git
cd EvoCUA
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt

（二）模型下载与部署

从 HuggingFace 下载模型权重，并使用 vLLM 作为 OpenAI 兼容的推理服务器进行部署：

huggingface-cli download meituan/EvoCUA-32B-20260105 \
--local-dir /path/to/EvoCUA-32B \
--local-dir-use-symlinks False

vllm serve /path/to/EvoCUA-32B \
--served-model-name EvoCUA \
--host 0.0.0.0 \
--port 8080 \
--tensor-parallel-size 2

（三）运行评估

运行以下命令，在 OSWorld 基准上对模型进行评估：

python3 run_multienv_evocua.py \
--headless \
--provider_name aws \
--observation_type screenshot \
--model EvoCUA-S2 \
--result_dir ./evocua_results \
--test_all_meta_path evaluation_examples/test_nogdrive.json \
--max_steps 50 \
--num_envs 30 \
--temperature 0.01 \
--max_history_turns 4 \
--coordinate_type relative \
--resize_factor 32 \
--prompt_style S2

七、结语

EvoCUA 的出现，为多模态计算机操作智能体的发展树立了一个新的开源标杆。它不仅在权威评测中证明了其技术实力，更重要的是，通过全面开源，它为整个研究和开发者社区提供了一个高起点和可复现的基线。未来，随着技术的迭代和社区在开源实战中的共同耕耘，我们有理由期待 EvoCUA 及其衍生项目将在自动化办公、智能体研发等更多领域落地生根，释放更大的生产力。

项目地址

GitHub 仓库：https://github.com/meituan/EvoCUA
HuggingFace 模型页面：https://huggingface.co/meituan/EvoCUA-32B-20260105

对于这类前沿的人工智能项目，持续关注其在云栈社区等开发者平台上的动态与实战讨论，是快速跟上技术步伐的好方法。

上一篇：Ansible 实战：从零到一实现Nginx服务器批量部署与运维效率提升
下一篇：开源AI代理Clawdbot：具备永久记忆，可自主执行任务的本地AI助手如何部署

多模态模型, 计算机视觉, 开源项目, 自动化操作, 美团技术