找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4669

积分

0

好友

653

主题
发表于 1 小时前 | 查看: 2| 回复: 0

2026年3月23日,Anthropic发布了一项被业界视为“重磅炸弹”的新功能:Claude Computer Use,它以研究预览版的形式正式集成到 Claude Cowork 和 Claude Code 中。

这标志着AI技术演进的一个关键节点。从此,Claude可以像一个真实的员工一样,直接操作你的macOS电脑桌面——它能够打开应用、在浏览器中导航、填写表格、处理文件,甚至在你不在电脑旁时,接受来自手机的远程指令进行工作。

Claude Computer Use功能演示封面:展示电脑与手机端协作进行自动化任务

配合此前一周密集发布的 Dispatch(手机调度)、Claude in Chrome(浏览器代理)、/schedule(定时任务)等一系列功能,Anthropic已经搭建起一个相当完整的「AI自动化员工」体系。

本文将带你从快速上手到深入技术原理,全面解析Claude Computer Use的功能、安全机制,并对比2026年激烈的AIGC赛道竞品,帮助你判断这项技术是否值得投入实际应用。

一句话总结:它到底能干什么?

在深入细节之前,我们先用一句话概括Claude Computer Use的核心能力:

你只需给Claude一个任务描述,它就能通过截屏、识别UI元素、点击鼠标、输入键盘的方式,像真人一样操作你Mac上的任何应用程序。

这并非概念演示,而是已经可以使用的产品功能。其典型应用场景包括:

  • 远程办公:你在赶路,用手机告诉Claude:“帮我把路演PPT转成PDF,塞进下午两点的会议邀请附件里。”它会独立在你的电脑上完成所有操作。
  • 开发运维:你在火车上,让Claude帮你启动本地开发服务器、截取特定页面、并在约定时间将截图发送到你的手机。
  • 批量处理:桌面上堆积了大量需要处理的店铺图片,只需一句话,Claude就能批量完成统一尺寸、添加水印等工作。

快速上手指南

谁能用?

条件 要求
操作系统 macOS(Windows/Linux 暂不支持)
客户端 Claude Cowork 桌面端 或 Claude Code CLI
订阅计划 Pro(约 $100-200/月)计划优先体验
系统权限 需授予辅助功能(Accessibility)屏幕录制权限

如何开启?

在 Claude Cowork 中开启:

  1. 打开 Claude Cowork 桌面应用。
  2. 发起一个新任务,用自然语言描述你想让Claude在电脑上完成什么。
  3. 当Claude判断需要操控屏幕时,会自动弹出权限请求弹窗。
  4. 点击「Turn on」,并根据提示为Claude需要访问的应用(如 Finder、Chrome 等)逐一授权。
  5. 授权后,Claude将开始在你的桌面上自主执行任务。

下图是Anthropic官方博客中展示的权限请求界面,Claude会明确列出它需要访问的每个应用及其对应的权限级别:

Claude Computer Use权限请求弹窗,明确列出需访问的应用及权限级别
图片来源:Anthropic官方博客

在 Claude Code 中开启:

Claude Code会在执行需要桌面交互的任务时,自动请求 computer use 权限。

# 示例:让Claude Code在IDE中执行复杂操作
claude "帮我在 VS Code 中打开项目,运行测试套件,把失败的测试截图发给我"

用手机远程指挥(Dispatch)

这是Claude Computer Use最具想象力的使用方式——电脑不在身边,但AI助手在岗

  1. 确保你的Mac上的Claude Cowork桌面应用保持运行状态。
  2. 在手机端的Claude App中,打开Dispatch对话。
  3. 直接用自然语言发送指令。
  4. Claude会在你的Mac上执行任务,完成后通过手机端将结果回复给你。

这种工作流真正实现了“人在路上,AI在工位”的自动化体验。下图展示了Dispatch与Computer Use的协作界面:

Dispatch与Computer Use协作界面:手机发送指令,电脑端Claude Code自主执行
图片来源:Anthropic官方博客

功能深度解析

Computer Use 的工作原理

Claude并非通过macOS的Accessibility API来理解屏幕内容,它采用的是一种纯视觉驱动的Agent循环

Computer Use视觉Agent工作循环流程图:截屏、分析、执行、验证四步闭环

整个流程是一个持续迭代的四步闭环:

  1. 截取屏幕:获取当前桌面的实时截图作为视觉输入。
  2. 像素级分析:使用视觉模型识别UI元素(按钮、输入框、菜单等),并计算它们在屏幕上的精确像素坐标(通过计算与屏幕边缘的距离定位)。
  3. 执行操作:根据分析结果,发出鼠标移动、点击、键盘输入、滚动等系统级指令。
  4. 验证结果:再次截屏,确认上一步操作是否达到预期效果;如果未完成,则返回第一步继续循环。

这种设计的最大优势在于通用性极强——任何能在屏幕上显示的内容,Claude都能尝试操作,无需应用程序本身提供任何API或专用插件支持。这项技术的突破部分归功于Anthropic在2026年2月收购的Vercept团队,该团队此前开发的Vy产品专攻远程Mac控制。整合后,Claude在衡量桌面操作能力的OSWorld基准测试上的得分从不到15%飙升至72.5%,已非常接近人类水平(70-75%)。

工具优先级层级

值得注意的是,Claude在执行任务时,并非总是首选“粗暴”的屏幕控制方式。它内部遵循一套严格的工具优先级策略:

Claude Computer Use工具优先级层级图:API连接器 > 浏览器代理 > 屏幕控制

这个设计非常巧妙:优先使用最快、最准确的API连接器(如直接调用Gmail API发送邮件);如果没有对应连接器,则降级使用结构化的浏览器代理进行网页操作;屏幕控制是最后的“终极”兜底方案。这确保了执行效率,同时最大限度地降低了因视觉识别错误而导致操作失败的概率。

/schedule 与 /loop:定时任务自动化

除了即时触发,Claude还支持定时自动执行任务,这是让它蜕变为“7×24小时自动化员工”的关键。

在 Claude Cowork 中使用 /schedule
在任何任务中输入 /schedule,或从侧边栏进入 Scheduled → New Task,即可配置定时任务。支持每小时、每天、每周、仅工作日及手动触发等多种频率。

在 Claude Code 中使用 /loop

# 每5分钟检查一次部署状态
/loop 5m check if the deployment finished and tell me what happened

# 配置一个每日任务,自动处理PR和文档更新
/schedule 创建一个每日任务,检查昨天的所有PR,根据代码变更自动更新文档,然后通过Slack通知团队

据Claude Code的产品经理Noah Zweben透露,Anthropic内部已大规模使用/schedule功能,例如自动修复CI错误、推送文档更新,甚至有一个定时任务全权维护着一个Python库的Go语言孪生版本

注意:Cowork的定时任务需要桌面端持续运行;Claude Code的/loop任务是会话级别的,关闭终端即停止,且默认3天后过期。

安全架构与权限体系

对于任何涉及系统级控制的功能,安全都是首要考量。Anthropic为Computer Use构建了一套多层防护体系:

Computer Use安全权限架构图:用户侧控制、系统级防护与已知风险

用户侧控制:

  • 逐应用授权:每个新应用都需要用户单独授权,Claude无法访问未授权的App。
  • 随时中断:用户可以随时中止Claude的任何操作。
  • 自定义黑名单:支持用户将特定应用加入黑名单。
  • 高风险应用默认屏蔽:投资、加密货币类应用默认禁止访问。

系统级防护:

  • 激活扫描(Activation Scanning):实时扫描模型内部状态,检测并抵御提示注入(Prompt Injection)攻击。
  • 内容分类器:扫描屏幕截图中的内容,当发现可疑指令时会要求用户二次确认。
  • 行为约束训练:Claude被训练为主动拒绝执行股票交易、资金转账、敏感数据录入等高危操作。

然而,Anthropic也坦率地公开了已知风险:

  • 即使在防护下,Prompt Injection攻击仍有约11%的成功率(缓解前为23.6%)。
  • Computer Use运行在Claude Cowork的VM沙箱之外,直接操作真实桌面环境。
  • 操作可能产生级联效应(例如,点击邮件中的链接会打开浏览器,而此操作无需额外的浏览器授权)。
  • 近几个月已修复了两个相关CVE漏洞(CVE-2025-59536 远程代码执行、CVE-2026-21852 API Key泄露)。

官方给出的核心建议是:从可信应用开始试用,避免在Computer Use模式下操作敏感数据。

竞品对比:2026 AI Agent 大战全景

Claude Computer Use的发布,正值AI Agent赛道竞争白热化之际。2026年3月,市场已涌现出多位强劲选手。

2026年AI Agent「Computer Use」竞品对比表格

核心结论:

  • 桌面自动化领域,Claude以OSWorld 72.5% 的得分遥遥领先,已逼近人类水平。
  • 网页自动化领域,OpenAI的Operator以WebVoyager 87% 的成绩表现更优。
  • 开源赛道,OpenClaw凭借免费和跨平台优势,获得了超过33万GitHub Stars。
  • 性价比市场,Perplexity Computer以每月$20的价格和协调19个模型的方案发起冲击。

一个颇具意味的事实是,OpenClaw最初名为Clawdbot,是基于Claude开发的。在其作者Peter Steinberger加入OpenAI后,项目更名。因此,Anthropic此次发布Dispatch与Computer Use,也被外界解读为对“自己生态中诞生的项目”的竞争性回应。

未来展望:Phone Use 与 Orbit

在Computer Use发布当天,TestingCatalog News爆料了更引人瞩目的消息:Anthropic正在开发「Phone Use」功能,内部代号「Orbit 🪐」

开发者@M1Astra在Claude移动端应用构建中发现了相关代码痕迹。若消息属实,意味着Claude未来将能直接操控你的手机——完成点击、滑动、切换App甚至拨打电话等操作。Anthropic目前未予置评,但TestingCatalog此前在2026年2月对Claude iOS端「Tasks」功能的预测已被证实。

如果Phone Use成为现实,那么从桌面到移动端,用户所有的屏幕设备都将可能成为Claude的“工位”,这将对开发者构建应用和用户交互模式产生深远影响。

总结与思考

Claude Computer Use的发布,标志着AI Agent从技术演示正式迈入产品化阶段。

  • 技术层面,OSWorld 72.5%的得分验证了纯视觉方案的强大潜力。Anthropic押注“视觉模型进步将直接提升电脑操控能力”的路线,目前看来是正确的。
  • 产品层面,Dispatch(手机调度)+ Computer Use(桌面执行)+ /schedule(定时循环)的组合,构成了一个完整的、无缝的自动化工作流,提供了前所未有的集成体验。
  • 安全层面,11%的残余注入攻击风险以及沙箱外运行的架构提醒我们,该功能远未达到可以完全托管信任的阶段。在处理敏感数据、金融操作或关键系统时,必须保持必要的人工监督。
  • 竞争层面,目前仅限macOS、使用额度消耗较快、Pro计划中浏览器代理仅能用Haiku模型等,都是当前的明显局限。但Anthropic近一周连发9项新功能的迭代速度,展现了其强烈的竞争意识。

对技术从业者而言,“AI能否操控电脑”已不再是问题。真正的问题是:在云浏览器自动化、本地桌面控制、开源方案以及即将到来的手机端操控等多种模式中,哪种会成为下一代主流的AI交互范式? 这个问题的答案,或许在未来几个月内就会变得清晰。对于关注前沿技术的朋友,可以持续在云栈社区交流此类动态。

参考资料:




上一篇:深度用户推荐10个Claude Code高效命令,提升AI编程生产力
下一篇:技术干货:解析机器学习、深度学习与人工智能的核心概念与关键区别
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-25 05:52 , Processed in 0.613928 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表