云栈社区»论坛 › 回收站「 Recycle Bin 」 › Mano-P 1.0: 端侧GUI感知模型斩获13个SOTA，开源三步走打造个性 ...

发回帖发新帖

4054 积分	0 好友	530 主题

发消息

Mano-P 1.0: 端侧GUI感知模型斩获13个SOTA，开源三步走打造个性化AI

发表于 2026-4-14 04:19:32 | 查看: 336| 回复: 0

有没有想过，让一个AI完全按照你的习惯和方式来替你处理电脑上的工作？

自从AI智能体（Agent）概念兴起，人们开始期待它能在电脑上自主执行操作。既然它具备一定的控制能力，那么让它帮忙处理一些重复性的图形界面（GUI）任务，似乎合情合理。

然而，现实是，许多现有的智能体操作起来仍显“笨拙”。让它们打开浏览器进行比价，都需要寻找特定的功能模块（Skills），执行过程也磕磕绊绊。这使得我们很难放心地将正式的工作流程交给它们。

时隔半年，那个能够直接操作图形界面、曾在权威基准测试中取得双榜SOTA的通用GUI智能体模型Mano，迎来了又一次飞跃。它不仅在自动操作工作流方面解决了核心痛点，甚至向着更个性化的应用场景迈进。

这一次，明略科技带来了全新进化的面向端侧设备的GUI-VLA智能体模型 Mano-P 1.0。这一模型不依赖传统的API对接，也不局限于浏览器场景，能够直接理解并操作桌面软件、网页界面，完成复杂的图形化工作流，实现了从“爪”到“手”的跨越式进化。

简而言之，Mano-P 1.0是一个纯视觉GUI操作模型，不依赖任何插件，打破了兼容性瓶颈。与其他方案不同，它能够完全实现本地运行，数据零上云，并且提供多种形态，力图覆盖不同开发者群体的需求。

Mano-P 1.0 模型标识与介绍

开源链接：https://github.com/Mininglamp-AI/Mano-P/tree/main

Mano-P的愿景是：一台M4芯片的Mac，两行命令，就能获得一个能在你电脑上自主操作界面的AI智能体。

性能突破：全球第一，断档领先

新模型带来了质的飞跃。我们或许可以猜测，名字中的“P”代表了 Power（性能）。

硬核成绩是最好的证明。此前双榜SOTA远非Mano模型的上限，Mano-P 1.0在全球13个多模态基准榜单上达到SOTA水平，覆盖GUI定位（Grounding）、计算机使用（CUA）、感知认知、视频理解、上下文学习等多个维度，呈现出“屠榜式”的领先优势。

例如，在ScreenSpot-V2上拿到93.5分，在MMBench-GUI上拿到87.5分，在UI-Vision上拿到46.6分，几乎全面碾压同量级竞品。

Mano-P 1.0 在多个基准测试上的性能对比柱状图

在GUI智能体领域最具权威性的基准测试OSWorld上，Mano-P 1.0-72B取得了58.2%的任务成功率，在所有专用GUI智能体模型中排名全球第一，领先第二名整整13.2个百分点。

若放在包含通用大模型的全榜单中，前四位均是千亿级参数的模型，而Mano-P以720亿参数跻身第五位。作为一款专用模型打入通用模型的俱乐部，这本身就极具说服力。

另一个值得关注的战场是WebRetriever Protocol I：Mano-P拿到了41.7的导航评估分数，超越了Gemini 2.5 Pro Computer Use和Claude 4.5 Computer Use。

这些成绩表明，Mano-P 1.0有足够实力角逐全球第一的桂冠。GUI是数字世界最真实的入口，而Mano-P正在尝试把这个入口完全交给智能体。

核心优势：数据完全不上云，本地安全运行

当前主流的计算机使用（Computer Use）方案，大多遵循同一模式：截屏 → 上传云端 → 云端推理 → 返回指令 → 本地执行。这意味着每次操作，屏幕内容都可能被传输到外部服务器。对于注重隐私的个人用户或有严格数据安全要求的场景，这是一个无法忽视的风险。

Mano-P选择了一条不同的道路：支持本地运行，数据完全不上云。

或许，这里的“P”也代表了 Private（私有）。

它支持在Apple M4芯片、配备32GB内存的Mac设备上直接进行本地推理。所有屏幕截图和任务数据完全留在设备内部，无需配置任何API密钥，无需联网，无需向任何外部服务器发送数据。

性能表现同样亮眼：其40亿参数量化模型（w4a16）在Apple M4 Pro上可实现每秒476个token的预填充速度和每秒76个token的解码速度，峰值内存占用仅4.3GB——一台标配的M4 Mac mini就能流畅运行。

Mano-P 1.0 4B量化模型在Apple M4 Pro上的性能参数表

显然，端侧部署并非云端能力的“缩水版”，而是AI智能体落地的另一条路径——一条更适合高安全、高隐私要求，以及希望完全掌控AI能力的用户的路径。

Mano-P通过独特的私有化策略，重构了“纯视觉理解”与“本地执行”的底层逻辑。这种架构提供了“物理隔离”的安全感，并结合其开箱即用的特性，大幅降低了构建GUI智能体工作流的工程门槛。这标志着AI智能体向私有化、个人化迈出了关键一步。

开源战略：三步走，构建完整生态

开源一个强大的模型需要魄力。或许，这里的“P”还意味着 Public（公开）。

Mano-P是一个全开源项目，其开源策略颇具章法——分为三个阶段，逐步释放能力。

Mano-P 1.0 系列发布架构图：Skill、Model、Method分阶段开源

第一阶段：Skill先行，开箱即用
目标：让用户立即能用起来。
Mano-CUA Skill已经开源。此阶段面向智能体爱好者，提供三种形态：

mano-cua (CLI命令行工具)：面向开发者和高级用户，可通过Homebrew一键安装。
mano-skill (Agent Skill插件)：面向Claude Code和OpenClaw用户，安装后AI智能体可自主调用该技能完成GUI操作。
mano-client (Python SDK)：即将发布，面向需要深度集成的开发者。

第二阶段：模型开放，能力下沉
目标：开源本地模型和SDK。
此阶段面向有高安全性要求的开发者。用户可直接使用能在Mac本地运行推理的GUI-VLA模型来构建自定义技能。关键点在于，所有操作都在本地执行。
将开源两个关键模型：

720亿参数完整模型：证明技术上限。
40亿参数量化模型 (w4a16)：专注于端侧体验，确保在消费级硬件上流畅运行。

第三阶段：方法公开，生态共建
目标：开源训练方法。
团队计划开源模型所使用的训练方法、剪枝和量化技术，包括其核心的 Mano-Action双向自增强学习框架 和 GSPruning视觉Token剪枝技术，与社区共享技术红利。

当三步走完，开发者获得的是一套从使用、定制到研发的完整技术栈。该项目采用Apache 2.0协议开源，支持商业使用与二次开发。

技术定位：第四类方案，纯视觉GUI智能体

目前市面上的GUI自动化方案大致分三类：

传统RPA：基于坐标或元素选择器，界面变化即失效。
浏览器型CUA：依赖Chrome DevTools Protocol，能力强但限于浏览器内。
云端Computer Use：能力最强，但依赖云端API，且主要面向Web。

Mano-P属于第四类——纯视觉GUI智能体。它模拟人类行为：看着屏幕，理解界面，然后决定操作，从而带来了几乎无限制的跨平台通用性。

Mano-P 与传统GUI自动化方案特性对比表格

Mano-P 1.0 模型的核心竞争力：

极致端侧性能：针对M4芯片优化，支持模型本地开箱即用。
全场景视觉理解：纯视觉方案打破浏览器局限，适配桌面软件与复杂工具。
离线规划能力：完全离线的自主规划与纠错闭环。
软硬一体方案：即插即用的部署方式，降低落地门槛。

未来愿景：从AGI到Personalized AI

“Mano”一词在西班牙语中意为“手”。而据明略科技官方解读，Mano-P中的“P”，其核心含义代表 Personal（个人） 或 Party（组织）。

这指向了一个更宏大的愿景：Personalized AI（个性化AI）。明略集团副总裁、多模态首席科学家赵晨旭认为，我们正处在AGI时代与Personalized AI时代的交界点。

AGI追求通用、普适的最优解。而Personalized AI则旨在寻找对于特定个人或组织价值最大的解。它需要结合个体或组织沉淀的私有经验与品味进行推理。

例如，让一个AGI模型打麻将，它会根据通用策略走出“机器人式”的最优步法。但一个Personalized AI则会学习你的打牌习惯、记牌方式，用“你的风格”来打。这就是本质区别。

为了迈向Personalized AI，Mano-P团队实现了三大技术突破：

在线强化学习：在真实GUI环境中进行交互与优化，让模型能力大幅提升。
双向强化训练范式：同时训练“自然语言→动作”和“动作→自然语言”两个方向，相互增强，仅用一套训练数据就在10个榜单上达到SOTA。
视觉Token剪枝：识别并剔除屏幕截图中的冗余信息（如留白），大幅降低计算量，使模型得以在端侧设备运行。

判断模型成功的标准也在发生变化。从过去追求榜单排名，转变为希望“模型能够被更多的人用起来”。这也是其采取激进开源策略的根本原因——只有开源，用户才能在本地优化自己的场景，Personalized AI的愿景才能真正落地。

一个令人向往的落地场景是 Mano-afk全自动应用构建与测试：用户输入一句自然语言需求，系统自动完成从需求澄清、架构设计、代码生成、部署、接口测试到GUI自动化测试的全流程。测试失败时自动定位并修复代码，循环迭代直至通过，全程无人干预。

从追求通用的AGI，到拥抱个性的Personalized AI，在这两个时代的十字路口，Mano-P 1.0及其所代表的技术路线，为我们思考AI的下一步演进方向提供了一个新的视角。

上一篇：iOS 26.4.1续航测试出炉：四款iPhone续航下降，仅iPhone 13微增
下一篇：国内首个原生全感知数采系统发布，开普勒VTLA模型引入六维力触觉

Mano-P 1．0, 界面智能体, 多模态模型, 计算机视觉, 端侧人工智能