找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3072

积分

0

好友

416

主题
发表于 18 小时前 | 查看: 25| 回复: 0

有没有想过,让一个AI完全按照你的习惯和方式来替你处理电脑上的工作?

自从AI智能体(Agent)概念兴起,人们开始期待它能在电脑上自主执行操作。既然它具备一定的控制能力,那么让它帮忙处理一些重复性的图形界面(GUI)任务,似乎合情合理。

然而,现实是,许多现有的智能体操作起来仍显“笨拙”。让它们打开浏览器进行比价,都需要寻找特定的功能模块(Skills),执行过程也磕磕绊绊。这使得我们很难放心地将正式的工作流程交给它们。

时隔半年,那个能够直接操作图形界面、曾在权威基准测试中取得双榜SOTA的通用GUI智能体模型Mano,迎来了又一次飞跃。它不仅在自动操作工作流方面解决了核心痛点,甚至向着更个性化的应用场景迈进。

这一次,明略科技带来了全新进化的面向端侧设备的GUI-VLA智能体模型 Mano-P 1.0。这一模型不依赖传统的API对接,也不局限于浏览器场景,能够直接理解并操作桌面软件、网页界面,完成复杂的图形化工作流,实现了从“爪”到“手”的跨越式进化。

简而言之,Mano-P 1.0是一个纯视觉GUI操作模型,不依赖任何插件,打破了兼容性瓶颈。与其他方案不同,它能够完全实现本地运行,数据零上云,并且提供多种形态,力图覆盖不同开发者群体的需求。

Mano-P 1.0 模型标识与介绍

Mano-P的愿景是:一台M4芯片的Mac,两行命令,就能获得一个能在你电脑上自主操作界面的AI智能体

性能突破:全球第一,断档领先

新模型带来了质的飞跃。我们或许可以猜测,名字中的“P”代表了 Power(性能)

硬核成绩是最好的证明。此前双榜SOTA远非Mano模型的上限,Mano-P 1.0在全球13个多模态基准榜单上达到SOTA水平,覆盖GUI定位(Grounding)、计算机使用(CUA)、感知认知、视频理解、上下文学习等多个维度,呈现出“屠榜式”的领先优势。

例如,在ScreenSpot-V2上拿到93.5分,在MMBench-GUI上拿到87.5分,在UI-Vision上拿到46.6分,几乎全面碾压同量级竞品。

Mano-P 1.0 在多个基准测试上的性能对比柱状图

在GUI智能体领域最具权威性的基准测试OSWorld上,Mano-P 1.0-72B取得了58.2%的任务成功率,在所有专用GUI智能体模型中排名全球第一,领先第二名整整13.2个百分点。

若放在包含通用大模型的全榜单中,前四位均是千亿级参数的模型,而Mano-P以720亿参数跻身第五位。作为一款专用模型打入通用模型的俱乐部,这本身就极具说服力。

另一个值得关注的战场是WebRetriever Protocol I:Mano-P拿到了41.7的导航评估分数,超越了Gemini 2.5 Pro Computer Use和Claude 4.5 Computer Use。

这些成绩表明,Mano-P 1.0有足够实力角逐全球第一的桂冠。GUI是数字世界最真实的入口,而Mano-P正在尝试把这个入口完全交给智能体。

核心优势:数据完全不上云,本地安全运行

当前主流的计算机使用(Computer Use)方案,大多遵循同一模式:截屏 → 上传云端 → 云端推理 → 返回指令 → 本地执行。这意味着每次操作,屏幕内容都可能被传输到外部服务器。对于注重隐私的个人用户或有严格数据安全要求的场景,这是一个无法忽视的风险。

Mano-P选择了一条不同的道路:支持本地运行,数据完全不上云

或许,这里的“P”也代表了 Private(私有)

它支持在Apple M4芯片、配备32GB内存的Mac设备上直接进行本地推理。所有屏幕截图和任务数据完全留在设备内部,无需配置任何API密钥,无需联网,无需向任何外部服务器发送数据。

性能表现同样亮眼:其40亿参数量化模型(w4a16)在Apple M4 Pro上可实现每秒476个token的预填充速度和每秒76个token的解码速度,峰值内存占用仅4.3GB——一台标配的M4 Mac mini就能流畅运行。

Mano-P 1.0 4B量化模型在Apple M4 Pro上的性能参数表

显然,端侧部署并非云端能力的“缩水版”,而是AI智能体落地的另一条路径——一条更适合高安全、高隐私要求,以及希望完全掌控AI能力的用户的路径。

Mano-P通过独特的私有化策略,重构了“纯视觉理解”与“本地执行”的底层逻辑。这种架构提供了“物理隔离”的安全感,并结合其开箱即用的特性,大幅降低了构建GUI智能体工作流的工程门槛。这标志着AI智能体向私有化、个人化迈出了关键一步。

开源战略:三步走,构建完整生态

开源一个强大的模型需要魄力。或许,这里的“P”还意味着 Public(公开)

Mano-P是一个全开源项目,其开源策略颇具章法——分为三个阶段,逐步释放能力。

Mano-P 1.0 系列发布架构图:Skill、Model、Method分阶段开源

第一阶段:Skill先行,开箱即用
目标:让用户立即能用起来。
Mano-CUA Skill已经开源。此阶段面向智能体爱好者,提供三种形态:

  • mano-cua (CLI命令行工具):面向开发者和高级用户,可通过Homebrew一键安装。
  • mano-skill (Agent Skill插件):面向Claude Code和OpenClaw用户,安装后AI智能体可自主调用该技能完成GUI操作。
  • mano-client (Python SDK):即将发布,面向需要深度集成的开发者。

第二阶段:模型开放,能力下沉
目标:开源本地模型和SDK。
此阶段面向有高安全性要求的开发者。用户可直接使用能在Mac本地运行推理的GUI-VLA模型来构建自定义技能。关键点在于,所有操作都在本地执行。
将开源两个关键模型:

  • 720亿参数完整模型:证明技术上限。
  • 40亿参数量化模型 (w4a16):专注于端侧体验,确保在消费级硬件上流畅运行。

第三阶段:方法公开,生态共建
目标:开源训练方法。
团队计划开源模型所使用的训练方法、剪枝和量化技术,包括其核心的 Mano-Action双向自增强学习框架GSPruning视觉Token剪枝技术,与社区共享技术红利。

当三步走完,开发者获得的是一套从使用、定制到研发的完整技术栈。该项目采用Apache 2.0协议开源,支持商业使用与二次开发。

技术定位:第四类方案,纯视觉GUI智能体

目前市面上的GUI自动化方案大致分三类:

  1. 传统RPA:基于坐标或元素选择器,界面变化即失效。
  2. 浏览器型CUA:依赖Chrome DevTools Protocol,能力强但限于浏览器内。
  3. 云端Computer Use:能力最强,但依赖云端API,且主要面向Web。

Mano-P属于第四类——纯视觉GUI智能体。它模拟人类行为:看着屏幕,理解界面,然后决定操作,从而带来了几乎无限制的跨平台通用性。

Mano-P 与传统GUI自动化方案特性对比表格

Mano-P 1.0 模型的核心竞争力:

  • 极致端侧性能:针对M4芯片优化,支持模型本地开箱即用。
  • 全场景视觉理解:纯视觉方案打破浏览器局限,适配桌面软件与复杂工具。
  • 离线规划能力:完全离线的自主规划与纠错闭环。
  • 软硬一体方案:即插即用的部署方式,降低落地门槛。

未来愿景:从AGI到Personalized AI

“Mano”一词在西班牙语中意为“手”。而据明略科技官方解读,Mano-P中的“P”,其核心含义代表 Personal(个人)Party(组织)

这指向了一个更宏大的愿景:Personalized AI(个性化AI)。明略集团副总裁、多模态首席科学家赵晨旭认为,我们正处在AGI时代与Personalized AI时代的交界点。

AGI追求通用、普适的最优解。而Personalized AI则旨在寻找对于特定个人或组织价值最大的解。它需要结合个体或组织沉淀的私有经验与品味进行推理。

例如,让一个AGI模型打麻将,它会根据通用策略走出“机器人式”的最优步法。但一个Personalized AI则会学习你的打牌习惯、记牌方式,用“你的风格”来打。这就是本质区别。

为了迈向Personalized AI,Mano-P团队实现了三大技术突破:

  1. 在线强化学习:在真实GUI环境中进行交互与优化,让模型能力大幅提升。
  2. 双向强化训练范式:同时训练“自然语言→动作”和“动作→自然语言”两个方向,相互增强,仅用一套训练数据就在10个榜单上达到SOTA。
  3. 视觉Token剪枝:识别并剔除屏幕截图中的冗余信息(如留白),大幅降低计算量,使模型得以在端侧设备运行。

判断模型成功的标准也在发生变化。从过去追求榜单排名,转变为希望“模型能够被更多的人用起来”。这也是其采取激进开源策略的根本原因——只有开源,用户才能在本地优化自己的场景,Personalized AI的愿景才能真正落地。

一个令人向往的落地场景是 Mano-afk全自动应用构建与测试:用户输入一句自然语言需求,系统自动完成从需求澄清、架构设计、代码生成、部署、接口测试到GUI自动化测试的全流程。测试失败时自动定位并修复代码,循环迭代直至通过,全程无人干预。

从追求通用的AGI,到拥抱个性的Personalized AI,在这两个时代的十字路口,Mano-P 1.0及其所代表的技术路线,为我们思考AI的下一步演进方向提供了一个新的视角。




上一篇:iOS 26.4.1续航测试出炉:四款iPhone续航下降,仅iPhone 13微增
下一篇:国内首个原生全感知数采系统发布,开普勒VTLA模型引入六维力触觉
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-14 22:26 , Processed in 0.732756 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表