随着人工智能技术的飞速发展,大模型在自然语言处理和计算机视觉等领域已取得显著成果。然而,面对复杂的图形界面操作任务——比如用Excel处理数据、在PPT里制作图表——现有模型的表现往往不尽如人意。美团技术团队最新开源的EvoCUA模型,正是瞄准这一痛点,通过一系列创新的数据合成与训练方法,为计算机操作自动化带来了令人兴奋的突破。

一、项目概述
EvoCUA (Evolving Computer Use Agent) 是一款由美团开源的多模态智能体,其核心使命是实现计算机操作的自动化。它能够接收自然语言指令,并结合对屏幕截图的理解,对Chrome、Excel、PowerPoint等主流应用程序进行端到端的多轮交互操作。这标志着AI在真实操作系统环境下的执行能力迈上了新台阶。
在权威的OSWorld评测基准中,EvoCUA以56.7%的任务成功率位居所有开源模型榜首,这一成绩甚至超越了多个知名的业界闭源竞品。
二、核心功能
(一)多轮上下文交互
EvoCUA并非一次性的指令执行器。它支持在动态变化的桌面环境中进行多轮、连续的交互。例如,当用户要求“在PPT第三页插入一个柱状图”时,模型会先截取当前幻灯片界面,识别图表插入点的位置,然后执行精确的点击、拖拽等操作,并根据反馈进行下一步。
(二)自然语言驱动的自动化
模型能够解析并执行复杂的自然语言指令,完成跨应用的任务链条。想象一下这样的场景:“从某某新闻网站抓取今日科技板块头条,整理成摘要,并插入到我们公司的周报PPT模板里。” EvoCUA的目标就是让这类跨应用、多步骤的办公自动化成为可能。
(三)视觉-语言深度融合
EvoCUA同步处理屏幕截图(视觉信息)和用户指令(语言信息),实现了更鲁棒、更细粒度的操作意图理解。这种深度的融合能力,是其能够准确“看清”界面元素并“执行”对应操作的关键,显著提升了任务完成的准确性和效率。
(四)低步数高完成率
通过结构化的动作空间建模与路径规划优化,EvoCUA倾向于在更少的交互轮次内达成任务目标。这意味着它不仅要做对,还要尽可能地做得快,在速度与准确性之间找到了一个优秀的平衡点。
(五)完全开源可定制
作为一项诚意十足的开源贡献,EvoCUA的代码、完整的训练流程以及预训练权重全部公开在GitHub和HuggingFace上。这极大地方便了研究者和开发者进行二次开发、领域适配(比如针对特定行业软件)与能力扩展。
三、技术揭秘
(一)数据合成与训练方法
高质量的训练数据是模型能力的基石。EvoCUA采用了一套创新的数据合成方法,能够自动生成海量、高质量的训练数据,用以模拟真实世界中千变万化的计算机操作任务。其训练方法经过精心设计,旨在不损害模型通用性能的前提下,显著拔高其计算机使用能力。
(二)强化学习优化机制
在训练过程中,EvoCUA引入了强化学习技术。模型像一个在环境中不断试错的学习者,通过奖励机制来优化自身的行为策略。在多轮交互中,它学习哪些操作序列能更高效地达成目标,从而逐步找到最优的操作路径。
(三)混合模型架构设计
EvoCUA的根基是强大大型语言模型(LLM)和视觉语言模型(VLM),这赋予了它卓越的语言理解和生成能力,以及处理视觉信息的能力。通过一套特定的提示工程和指令解析机制,模型能够将用户模糊的自然语言指令,转化为操作系统可执行的具体操作命令(如点击坐标、输入文本、按键等)。
四、基准评测
在OSWorld基准测试中,EvoCUA取得了56.7%的成功率,创造了开源模型的新纪录。这一成绩大幅超越了此前最好的开源模型OpenCUA-72B(45.0%),也领先于知名的闭源模型UI-TARS-2(53.1%)。更值得一提的是,EvoCUA在不同参数规模的基础模型上均实现了稳定的性能提升,这证明了其方法强大的通用性和可扩展性。

五、应用场景
(一)智能办公助理
EvoCUA可以自动执行Excel数据处理、PowerPoint幻灯片制作、Word文档编辑等重复性办公任务。例如,根据“将销售数据按地区生成饼图并添加趋势分析”这样的指令,自动完成从数据整理到图表生成的全过程,大幅提升工作效率。
(二)智能测试与研发提效
在软件开发领域,EvoCUA可用于自动化UI测试、生成基础测试脚本,甚至辅助低代码界面搭建。它能够模拟用户操作,自动检测界面异常,从而加速产品的测试与迭代周期。
(三)自助技术支持系统
用户可以通过自然语言描述软件使用中遇到的问题,EvoCUA能够理解问题,并尝试通过实际操作来复现问题、定位原因,甚至提供一步步的修复指导,实现7x24小时的自动化初级技术支持。
(四)教育内容生成与实操教学
它可以用来生成带有操作演示的教学课件或互动式实验指南。例如,根据“教授如何用Photoshop抠图”的指令,自动生成一套分步操作的屏幕录制脚本或图文教程。
(五)自然语言数据分析平台
对接数据平台后,EvoCUA可以接收“分析上周用户留存率,并与前月对比”这样的口语化查询,自动调用相关工具完成数据查询、清洗、计算,并生成可视化图表和简要报告。
六、快速使用指南
(一)环境准备
推荐使用 Python 3.12,通过以下命令克隆项目并安装依赖:
git clone https://github.com/meituan/EvoCUA.git
cd EvoCUA
python3 -m venv .venv
source .venv/bin/activate
pip install -r requirements.txt
(二)模型下载与部署
从 HuggingFace 下载模型权重,并使用 vLLM 作为 OpenAI 兼容的推理服务器进行部署:
huggingface-cli download meituan/EvoCUA-32B-20260105 \
--local-dir /path/to/EvoCUA-32B \
--local-dir-use-symlinks False
vllm serve /path/to/EvoCUA-32B \
--served-model-name EvoCUA \
--host 0.0.0.0 \
--port 8080 \
--tensor-parallel-size 2
(三)运行评估
运行以下命令,在 OSWorld 基准上对模型进行评估:
python3 run_multienv_evocua.py \
--headless \
--provider_name aws \
--observation_type screenshot \
--model EvoCUA-S2 \
--result_dir ./evocua_results \
--test_all_meta_path evaluation_examples/test_nogdrive.json \
--max_steps 50 \
--num_envs 30 \
--temperature 0.01 \
--max_history_turns 4 \
--coordinate_type relative \
--resize_factor 32 \
--prompt_style S2
七、结语
EvoCUA 的出现,为多模态计算机操作智能体的发展树立了一个新的开源标杆。它不仅在权威评测中证明了其技术实力,更重要的是,通过全面开源,它为整个研究和开发者社区提供了一个高起点和可复现的基线。未来,随着技术的迭代和社区在开源实战中的共同耕耘,我们有理由期待 EvoCUA 及其衍生项目将在自动化办公、智能体研发等更多领域落地生根,释放更大的生产力。
项目地址
对于这类前沿的人工智能项目,持续关注其在云栈社区等开发者平台上的动态与实战讨论,是快速跟上技术步伐的好方法。