云栈社区»论坛 › 开发者广场「Dev Plaza」 › Claude Computer Use 上线 Mac：成功率50%，AI代理从“会聊”到 ...

5819 积分	1 好友	757 主题

发消息

Claude Computer Use 上线 Mac：成功率50%，AI代理从“会聊”到“会做”

发表于 2026-3-28 06:30:03 | 查看: 132| 回复: 0

Anthropic近日推出了一项重磅更新：让人工智能 Claude直接控制你的Mac电脑。这不再是简单的聊天或代码生成，而是真正意义上的“动手”操作——点击按钮、打开应用、输入文本、滚动屏幕。想象一下，当你离开工位，它帮你处理工作；你回来时，任务可能已经完成了。听起来很科幻？但现实有点骨感，实测表明，这项功能目前大约只有一半的时候能正常工作。

AI 终于长出了“手”

这是整个AI行业期待已久的关键一步。过去几年，大语言模型已经充分证明了它们“会思考”。现在，Anthropic想向世界证明，它们“会行动”。这次更新的核心能力被称为“Computer Use”（电脑使用），名字朴素，但野心巨大。

它的工作逻辑分为三层：
第一层，走捷径（API）。 当你让Claude查看邮件时，它会优先尝试通过Gmail的官方API接口直接调取数据。这种方式快速、准确且稳定。
第二层，走浏览器。 如果没有现成的API接口怎么办？没关系，Claude会打开Chrome浏览器，像真人一样点击、输入、浏览网页。
第三层，走屏幕。 如果前两种方式都行不通，Claude会通过截屏来分析你的桌面，然后模拟鼠标和键盘操作——就像一个看不见的远程操控员。

坦白说，这个分层策略设计得很聪明。但第三层也正是最危险、最缓慢、最容易出错的一层。

结合上周推出的Dispatch功能，你甚至可以用手机发送指令，让Claude在你的Mac上执行。例如，通勤路上发一条“帮我整理周报”，到公司时任务可能已经完成了。

一半时间在干活，一半时间在添乱

科技媒体MacStories的编辑John Voorhees第一时间进行了实测，并给出了一个非常诚实的结论：成功率大约只有50%。

他让Claude找一张截图——成功了。让它总结最新的Notion笔记——成功了。让它列出当天的笔记——也成功了。

但让它打开Shortcuts应用——失败了。让它通过iMessage发送截图——失败了。让它列出Safari浏览器中正在浏览的外卖订单——还是失败了。

“能找到信息，也能配合Connectors工作，但很慢，而且你尝试的操作大概只有一半能成功。”

Voorhees的评价相当克制：“还不足以让你放心离开工位时依赖它。但方向是对的。”

GitHub上已有用户报告了相关Bug：Claude Code试图一次性读取多个大型PDF文件，结果因为超过20MB的API限制而直接报错。

有趣的是，Anthropic自己也承认这只是“研究预览版”。他们没有藏着掖着——这个东西还不成熟，但先拿出来让大家试试看。

开源社区早已先行一步

Anthropic并非第一个探索这个领域的玩家。

今年早些时候，一个名为OpenClaw的开源框架突然爆火。它的核心功能几乎一模一样：让AI模型自主控制电脑、操作工具。社区甚至给这类工具起了一个统称——“Claw”。

这验证了用户对“AI代理”的强烈渴望：即使体验粗糙，他们也愿意忍受。

英伟达上周跟进推出了NemoClaw，主打更简单的部署和更强的安全控制。初创公司Coasty更是直接在Anthropic的官宣推文下“截胡”，宣称自己的产品体验更好、准确率更高。

Anthropic进场的时机很微妙。开源社区已经完成了前期的市场教育，现在它带着更友好的界面、更紧密的系统集成以及现成的庞大订阅用户群，意图收割战场。

免费但需要折腾的开源工具，与每月17美元起步的商业化产品，谁能最终胜出？目前还不好说。

你的隐私，Claude 全看得见

让AI直接控制你的电脑，代价是什么？

首先是隐私。 当Claude通过截屏来“看”你的桌面时，它能看见屏幕上的一切——敏感文档、私人信息，甚至是你不小心打开的股票账户。Anthropic表示，他们训练Claude避免处理股票交易、敏感数据输入等行为，但也明确警告：“这些防护栏不是绝对的。”

其次是安全。 Computer Use功能并非在安全的虚拟机中运行，而是直接操作你的真实桌面。一次误点击、一条被误解的指令，或者一次成功的提示注入攻击，都可能造成真实的后果。

Anthropic设置了几道防线：访问每个应用前都需要用户授权；投资和加密货币类应用默认被屏蔽；用户可以自定义应用黑名单；系统会扫描提示注入的迹象。

但他们的帮助文档写得非常直白：不要用这个功能来管理财务账户、处理法律文件、处理医疗信息，或操作任何包含他人隐私信息的应用。

对于企业用户，问题更为棘手。Cowork的对话历史存储在本地设备上，而不是Anthropic的服务器。这意味着企业版的核心功能——审计日志、合规API、数据导出——目前都无法覆盖到Cowork的活动。

一位用户在社交媒体上提出了一个关键问题：

“当代理就是用户本身（使用同样的鼠标、键盘、屏幕），传统的取证标记将无法区分是人类操作还是AI操作。审计追踪该怎么实现？”

这个问题，Anthropic尚未给出明确答案。

用户反应：兴奋、焦虑与不满

社交媒体上的反应大致分成了三派。

兴奋派： “刚更新完就试用了Dispatch，这正是我想要的功能。”“发布速度太棒了。”“对不懂技术的用户来说太重要了，不用再去折腾OpenClaw了。”
焦虑派： “把这种级别的控制权交给AI来操作你的个人设备，感觉不太对劲。就像让一个不太熟的人开你的车，然后祈祷一切顺利。”
不满派： Windows用户感觉自己被排除在外。此外，一些Max套餐订阅用户抱怨道——每月200美元的额度，一个复杂的指令就可能消耗掉10%。“额度消耗的速度太疯狂了。”

企业市场才是真正的战场

定价策略暴露了Anthropic的真实意图。

个人用户每月17美元起步，但官方提示“代理任务比普通聊天消耗更多容量”。想要重度使用？请升级到每月100或200美元的Max套餐。
团队版为每月20美元/人。企业版则为定制价格，并包含管理员控制开关。

真正的大招在于其插件系统。Anthropic已经推出了针对特定工作流的插件，例如法律工作流插件（用于合同审查、NDA分类）、财务插件（用于日记账、对账、差异分析）、品牌语调插件（分析现有文档并执行写作规范）。

将Computer Use、Dispatch、定时任务和领域专用插件组合在一起——Anthropic想兜售的早已不是聊天机器人，而是一个虚拟员工。

一位用户的总结非常到位：

“配合刚上线的 /schedule 功能，你基本上就有了一个能按计划与任何应用交互的后台工作者。这已经不是AI助手了，这是基础设施。”

速度与安全，Anthropic 选择了速度

Anthropic正在以一种近乎激进的方式推进。

功能不完美？先发布。成功率只有一半？先发布。审计日志尚未覆盖？先发布。

这几乎是当前AI行业的一个缩影：跑得不够快就会被淘汰，但跑得太快也可能出事。

Anthropic自己的经济指数报告显示，AI正在重塑劳动力市场，科技、金融、专业服务领域的知识工作者受影响最大。与此同时，公司还面临来自参议员Elizabeth Warren对其国防和供应链关系的审查。

在内忧外患之下，Anthropic选择了一条明确的道路：让用户来帮助它迭代。

50%的成功率，今天够用吗？对一些简单、容错率高的场景，或许够了。但对许多严肃、关键的场景，还远远不够。

但有一个根本性问题目前无人能答：当AI真的搞砸了——比如删除了重要文件、发送了错误邮件、操作了不该操作的账户——最终该由谁负责？

Anthropic似乎在赌：当前的失败只会造成小麻烦。而一旦失败演变成无法挽回的大麻烦，那么整个关于AI代理的计算可能都要被推翻。

人类花了三年时间证明机器能够“思考”。现在摆在我们面前的新问题是：人类准备好让它们“行动”了吗？

目前的答案似乎是“试试看”——在给予权限时，我们得带着警惕，设置好黑名单，并怀着一个朴素的愿望：在技术真正追上野心之前，希望它别删掉什么真正重要的东西。 对于这类前沿技术的动态与讨论，欢迎在云栈社区的开发者广场板块与大家交流。

注：根据Anthropic的说明，这项“Computer Use”功能目前仅为“研究预览版”，本质上是在利用用户的耐心和容错率来收集真实场景的训练数据，以加速迭代。

上一篇：《洛克王国：世界》上线首日吸引1500万玩家，3D大世界评测
下一篇：零跑A10正式发布：6.58万起，500km续航，我的小车换购新选择

Claude, Anthropic, 电脑使用, AI代理, Mac