找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

5452

积分

0

好友

752

主题
发表于 2 小时前 | 查看: 8| 回复: 0

操控浏览器的自动化方案已经非常成熟了。无论是基于 Chrome DevTools Protocol (CDP) 还是使用 Playwright,我们都能轻松实现网页上的各种自动化操作。

然而,当问题转向操控电脑上的桌面软件时,情况就大不一样了。桌面应用没有像浏览器那样的统一通信协议,也没有可供解析的 DOM 结构,不同软件的界面千差万别。想让 AI 帮你操作桌面软件?以往基本只能望而兴叹。

最近,一个名为 Mano-P 的开源项目进入了视野,它正是为解决这一问题而生。这个模型能够通过纯视觉理解桌面上的任何软件界面,像人一样去点击和操作,并且可以在你的本地设备上全流程运行,数据无需上传至云端。

Mano-P 1.0 开源项目主页截图,展示项目概述、应用场景和技术特点

开源项目简介

Mano-P 是由明略科技开源的一个 GUI-VLA(视觉语言-智能体)模型。简单来说,它是一个能“看懂”你的电脑屏幕,并“动手”操作桌面上任何软件界面的 AI 助手。

它的核心在于不依赖任何特定协议。不像传统方案需要 CDP 或 HTML 解析,Mano-P 的模型直接分析屏幕截图,理解当前画面的内容和布局,然后自主决定下一步的操作指令。这种能力让其应用范围远超浏览器,拓展到了更广阔的桌面软件世界。

项目开源地址:

https://github.com/Mininglamp-AI/Mano-P

“Mano” 在西班牙语中意为 “手”,而 “P” 则有两层含义:Person 和 Party,寓意无论是个人还是组织,都能利用它创建个性化的 AI 助手。

从性能上看,Mano-P 表现不俗。目前,在 OSWorld 专项模型榜单上排名第一,其 72B 模型的任务成功率达到了 58.2%,比第二名高出 13.2 个百分点。同时,它在全球 13 个多模态基准测试中取得了 SOTA(当前最优)成绩。

Mano-P 1.0 模型在多项基准测试中的性能对比柱状图

核心亮点分析

① 纯视觉驱动,突破浏览器限制
目前市面上的 GUI Agent(图形界面智能体),大多要么依赖 CDP 协议只能操控浏览器,要么需要调用系统的辅助功能 API,要么就得将截图上传到云端由大模型分析。Mano-P 则另辟蹊径,选择了纯视觉路线。模型像人眼一样观察截图,理解界面内容并执行操作。这意味着无论是桌面软件、网页、3D 应用还是专业工具,只要有图形界面,理论上都能被操作,极大地扩展了自动化覆盖的范围。

② 数据本地处理,保障隐私安全
这是 Mano-P 与其他需要云端计算的 Computer Use(电脑使用)方案最显著的区别。在本地模式下,所有的屏幕截图和任务描述数据都完全不出你的设备。无需联网,无需调用外部 API,断网环境也能正常工作。根据官方数据,其 4B 量化模型在 Apple M4 Pro 上的表现如下:

  • 预填充速度:476 tokens/s
  • 解码速度:76 tokens/s
  • 峰值内存占用:仅 4.3GB

对于普通用户,一台配备 M4 芯片的 MacBook 即可流畅运行。对于企业用户而言,业务数据、客户信息和操作记录全部保留在本地,从根本上杜绝了数据泄露的风险

③ 闭环推理机制,提升任务稳定性
Mano-P 并非简单的“所见即所点”。它遵循一套 “思考 (Think) -> 执行 (Act) -> 验证 (Verify)” 的闭环工作流。它会先分析当前画面,思考应该做什么,然后执行操作,最后验证操作结果是否符合预期。如果发现错误,它能够自我纠正并重新尝试。这种机制使其在处理包含数十个步骤的复杂、长序列任务时,也能保持较高的稳定性和成功率。

如何使用?

Mano-P 提供了多种使用方式,最简单的是通过其 CLI(命令行界面)工具。

使用 Homebrew 一键安装:

brew tap HanningWang/tap
brew install mano-cua

安装完成后,即可通过简单的自然语言命令来操控电脑:

# 操作微信发消息
mano-cua run "打开微信并告诉XX会议延期"

# 在小红书搜内容
mano-cua run "在小红书搜索AI新闻并展示第一条帖子"

# 停止当前任务
mano-cua stop

如果你正在使用 Claude Code 或 OpenClaw 这类 AI Agent 框架,还可以通过安装 mano-skill 技能包,将 Mano-P 的能力直接集成到你的 Agent 中,实现更智能的自动化任务编排。

使用 ClawHub CLI 安装 mano-skill 的说明截图

此外,官方的 Python SDK (mano-client) 也即将发布,方便开发者进行更深度的集成与开发。

硬件与模式选择:

  • 本地模式:需要配备 M4 芯片的 Mac 以及 32GB 内存。如果没有符合条件的 Mac,也可以通过 USB 4.0 算力棒来运行模型。
  • 云端模式(默认):如果本地算力不足,也可以选择云端推理模式。官方承诺,即便是云端模式,涉及本地文件、剪贴板、凭证等敏感数据也不会被上传。

Mano-P 工作原理示意图,对比本地模式和云端模式流程

总结与展望

目前开源的是 Mano-P 项目的第一阶段,即 Mano-CUA Skills 部分。据官方路线图,Mano-CUA 的本地模型和 SDK 组件预计将在四月底开源,届时所有 CUA(计算机使用智能体)操作都将在本地 Mac 设备上完成,无需连接外部服务器。

后续,项目还将开放训练方法和模型压缩技术,赋能开发者训练符合自身独特业务需求的本地化 GUI-VLA 模型。

总而言之,Mano-P 精准地切入了一个实际且棘手的痛点:跨平台、跨应用的桌面软件自动化操控。当浏览器自动化已成为红海,桌面端的 GUI Agent 仍是一片亟待开拓的领域。Mano-P 采用纯视觉方案,巧妙地绕开了协议和 API 的藩篱,并始终坚持本地化运行与数据隐私保护。在当前日益重视安全与隐私的技术浪潮下,这个方向的探索与实践无疑具有重要的参考价值。对于关心 开源 前沿与 人工智能 应用落地的开发者而言,Mano-P 是一个值得持续关注的 开源实战 项目。




上一篇:AI Skill 开源实践:从饺子馆案例看传统行业数字化转型新路径
下一篇:在Claude Code CLI中集成ccstatusline:打造可定制状态栏与实时指标显示
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-20 11:12 , Processed in 0.639691 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表