2026年3月23日,Anthropic发布了一项被业界视为“重磅炸弹”的新功能:Claude Computer Use,它以研究预览版的形式正式集成到 Claude Cowork 和 Claude Code 中。
这标志着AI技术演进的一个关键节点。从此,Claude可以像一个真实的员工一样,直接操作你的macOS电脑桌面——它能够打开应用、在浏览器中导航、填写表格、处理文件,甚至在你不在电脑旁时,接受来自手机的远程指令进行工作。

配合此前一周密集发布的 Dispatch(手机调度)、Claude in Chrome(浏览器代理)、/schedule(定时任务)等一系列功能,Anthropic已经搭建起一个相当完整的「AI自动化员工」体系。
本文将带你从快速上手到深入技术原理,全面解析Claude Computer Use的功能、安全机制,并对比2026年激烈的AIGC赛道竞品,帮助你判断这项技术是否值得投入实际应用。
一句话总结:它到底能干什么?
在深入细节之前,我们先用一句话概括Claude Computer Use的核心能力:
你只需给Claude一个任务描述,它就能通过截屏、识别UI元素、点击鼠标、输入键盘的方式,像真人一样操作你Mac上的任何应用程序。
这并非概念演示,而是已经可以使用的产品功能。其典型应用场景包括:
- 远程办公:你在赶路,用手机告诉Claude:“帮我把路演PPT转成PDF,塞进下午两点的会议邀请附件里。”它会独立在你的电脑上完成所有操作。
- 开发运维:你在火车上,让Claude帮你启动本地开发服务器、截取特定页面、并在约定时间将截图发送到你的手机。
- 批量处理:桌面上堆积了大量需要处理的店铺图片,只需一句话,Claude就能批量完成统一尺寸、添加水印等工作。
快速上手指南
谁能用?
| 条件 |
要求 |
| 操作系统 |
macOS(Windows/Linux 暂不支持) |
| 客户端 |
Claude Cowork 桌面端 或 Claude Code CLI |
| 订阅计划 |
Pro(约 $100-200/月)计划优先体验 |
| 系统权限 |
需授予辅助功能(Accessibility) 与 屏幕录制权限 |
如何开启?
在 Claude Cowork 中开启:
- 打开 Claude Cowork 桌面应用。
- 发起一个新任务,用自然语言描述你想让Claude在电脑上完成什么。
- 当Claude判断需要操控屏幕时,会自动弹出权限请求弹窗。
- 点击「Turn on」,并根据提示为Claude需要访问的应用(如 Finder、Chrome 等)逐一授权。
- 授权后,Claude将开始在你的桌面上自主执行任务。
下图是Anthropic官方博客中展示的权限请求界面,Claude会明确列出它需要访问的每个应用及其对应的权限级别:

图片来源:Anthropic官方博客
在 Claude Code 中开启:
Claude Code会在执行需要桌面交互的任务时,自动请求 computer use 权限。
# 示例:让Claude Code在IDE中执行复杂操作
claude "帮我在 VS Code 中打开项目,运行测试套件,把失败的测试截图发给我"
用手机远程指挥(Dispatch)
这是Claude Computer Use最具想象力的使用方式——电脑不在身边,但AI助手在岗。
- 确保你的Mac上的Claude Cowork桌面应用保持运行状态。
- 在手机端的Claude App中,打开Dispatch对话。
- 直接用自然语言发送指令。
- Claude会在你的Mac上执行任务,完成后通过手机端将结果回复给你。
这种工作流真正实现了“人在路上,AI在工位”的自动化体验。下图展示了Dispatch与Computer Use的协作界面:

图片来源:Anthropic官方博客
功能深度解析
Computer Use 的工作原理
Claude并非通过macOS的Accessibility API来理解屏幕内容,它采用的是一种纯视觉驱动的Agent循环。

整个流程是一个持续迭代的四步闭环:
- 截取屏幕:获取当前桌面的实时截图作为视觉输入。
- 像素级分析:使用视觉模型识别UI元素(按钮、输入框、菜单等),并计算它们在屏幕上的精确像素坐标(通过计算与屏幕边缘的距离定位)。
- 执行操作:根据分析结果,发出鼠标移动、点击、键盘输入、滚动等系统级指令。
- 验证结果:再次截屏,确认上一步操作是否达到预期效果;如果未完成,则返回第一步继续循环。
这种设计的最大优势在于通用性极强——任何能在屏幕上显示的内容,Claude都能尝试操作,无需应用程序本身提供任何API或专用插件支持。这项技术的突破部分归功于Anthropic在2026年2月收购的Vercept团队,该团队此前开发的Vy产品专攻远程Mac控制。整合后,Claude在衡量桌面操作能力的OSWorld基准测试上的得分从不到15%飙升至72.5%,已非常接近人类水平(70-75%)。
工具优先级层级
值得注意的是,Claude在执行任务时,并非总是首选“粗暴”的屏幕控制方式。它内部遵循一套严格的工具优先级策略:

这个设计非常巧妙:优先使用最快、最准确的API连接器(如直接调用Gmail API发送邮件);如果没有对应连接器,则降级使用结构化的浏览器代理进行网页操作;屏幕控制是最后的“终极”兜底方案。这确保了执行效率,同时最大限度地降低了因视觉识别错误而导致操作失败的概率。
/schedule 与 /loop:定时任务自动化
除了即时触发,Claude还支持定时自动执行任务,这是让它蜕变为“7×24小时自动化员工”的关键。
在 Claude Cowork 中使用 /schedule:
在任何任务中输入 /schedule,或从侧边栏进入 Scheduled → New Task,即可配置定时任务。支持每小时、每天、每周、仅工作日及手动触发等多种频率。
在 Claude Code 中使用 /loop:
# 每5分钟检查一次部署状态
/loop 5m check if the deployment finished and tell me what happened
# 配置一个每日任务,自动处理PR和文档更新
/schedule 创建一个每日任务,检查昨天的所有PR,根据代码变更自动更新文档,然后通过Slack通知团队
据Claude Code的产品经理Noah Zweben透露,Anthropic内部已大规模使用/schedule功能,例如自动修复CI错误、推送文档更新,甚至有一个定时任务全权维护着一个Python库的Go语言孪生版本。
注意:Cowork的定时任务需要桌面端持续运行;Claude Code的/loop任务是会话级别的,关闭终端即停止,且默认3天后过期。
安全架构与权限体系
对于任何涉及系统级控制的功能,安全都是首要考量。Anthropic为Computer Use构建了一套多层防护体系:

用户侧控制:
- 逐应用授权:每个新应用都需要用户单独授权,Claude无法访问未授权的App。
- 随时中断:用户可以随时中止Claude的任何操作。
- 自定义黑名单:支持用户将特定应用加入黑名单。
- 高风险应用默认屏蔽:投资、加密货币类应用默认禁止访问。
系统级防护:
- 激活扫描(Activation Scanning):实时扫描模型内部状态,检测并抵御提示注入(Prompt Injection)攻击。
- 内容分类器:扫描屏幕截图中的内容,当发现可疑指令时会要求用户二次确认。
- 行为约束训练:Claude被训练为主动拒绝执行股票交易、资金转账、敏感数据录入等高危操作。
然而,Anthropic也坦率地公开了已知风险:
- 即使在防护下,Prompt Injection攻击仍有约11%的成功率(缓解前为23.6%)。
- Computer Use运行在Claude Cowork的VM沙箱之外,直接操作真实桌面环境。
- 操作可能产生级联效应(例如,点击邮件中的链接会打开浏览器,而此操作无需额外的浏览器授权)。
- 近几个月已修复了两个相关CVE漏洞(CVE-2025-59536 远程代码执行、CVE-2026-21852 API Key泄露)。
官方给出的核心建议是:从可信应用开始试用,避免在Computer Use模式下操作敏感数据。
竞品对比:2026 AI Agent 大战全景
Claude Computer Use的发布,正值AI Agent赛道竞争白热化之际。2026年3月,市场已涌现出多位强劲选手。

核心结论:
- 桌面自动化领域,Claude以OSWorld 72.5% 的得分遥遥领先,已逼近人类水平。
- 网页自动化领域,OpenAI的Operator以WebVoyager 87% 的成绩表现更优。
- 开源赛道,OpenClaw凭借免费和跨平台优势,获得了超过33万GitHub Stars。
- 性价比市场,Perplexity Computer以每月$20的价格和协调19个模型的方案发起冲击。
一个颇具意味的事实是,OpenClaw最初名为Clawdbot,是基于Claude开发的。在其作者Peter Steinberger加入OpenAI后,项目更名。因此,Anthropic此次发布Dispatch与Computer Use,也被外界解读为对“自己生态中诞生的项目”的竞争性回应。
未来展望:Phone Use 与 Orbit
在Computer Use发布当天,TestingCatalog News爆料了更引人瞩目的消息:Anthropic正在开发「Phone Use」功能,内部代号「Orbit 🪐」。
开发者@M1Astra在Claude移动端应用构建中发现了相关代码痕迹。若消息属实,意味着Claude未来将能直接操控你的手机——完成点击、滑动、切换App甚至拨打电话等操作。Anthropic目前未予置评,但TestingCatalog此前在2026年2月对Claude iOS端「Tasks」功能的预测已被证实。
如果Phone Use成为现实,那么从桌面到移动端,用户所有的屏幕设备都将可能成为Claude的“工位”,这将对开发者构建应用和用户交互模式产生深远影响。
总结与思考
Claude Computer Use的发布,标志着AI Agent从技术演示正式迈入产品化阶段。
- 技术层面,OSWorld 72.5%的得分验证了纯视觉方案的强大潜力。Anthropic押注“视觉模型进步将直接提升电脑操控能力”的路线,目前看来是正确的。
- 产品层面,Dispatch(手机调度)+ Computer Use(桌面执行)+
/schedule(定时循环)的组合,构成了一个完整的、无缝的自动化工作流,提供了前所未有的集成体验。
- 安全层面,11%的残余注入攻击风险以及沙箱外运行的架构提醒我们,该功能远未达到可以完全托管信任的阶段。在处理敏感数据、金融操作或关键系统时,必须保持必要的人工监督。
- 竞争层面,目前仅限macOS、使用额度消耗较快、Pro计划中浏览器代理仅能用Haiku模型等,都是当前的明显局限。但Anthropic近一周连发9项新功能的迭代速度,展现了其强烈的竞争意识。
对技术从业者而言,“AI能否操控电脑”已不再是问题。真正的问题是:在云浏览器自动化、本地桌面控制、开源方案以及即将到来的手机端操控等多种模式中,哪种会成为下一代主流的AI交互范式? 这个问题的答案,或许在未来几个月内就会变得清晰。对于关注前沿技术的朋友,可以持续在云栈社区交流此类动态。
参考资料: