Anthropic近日推出了一项重磅更新:让人工智能 Claude直接控制你的Mac电脑。这不再是简单的聊天或代码生成,而是真正意义上的“动手”操作——点击按钮、打开应用、输入文本、滚动屏幕。想象一下,当你离开工位,它帮你处理工作;你回来时,任务可能已经完成了。听起来很科幻?但现实有点骨感,实测表明,这项功能目前大约只有一半的时候能正常工作。
AI 终于长出了“手”
这是整个AI行业期待已久的关键一步。过去几年,大语言模型已经充分证明了它们“会思考”。现在,Anthropic想向世界证明,它们“会行动”。这次更新的核心能力被称为“Computer Use”(电脑使用),名字朴素,但野心巨大。
它的工作逻辑分为三层:
第一层,走捷径(API)。 当你让Claude查看邮件时,它会优先尝试通过Gmail的官方API接口直接调取数据。这种方式快速、准确且稳定。
第二层,走浏览器。 如果没有现成的API接口怎么办?没关系,Claude会打开Chrome浏览器,像真人一样点击、输入、浏览网页。
第三层,走屏幕。 如果前两种方式都行不通,Claude会通过截屏来分析你的桌面,然后模拟鼠标和键盘操作——就像一个看不见的远程操控员。
坦白说,这个分层策略设计得很聪明。但第三层也正是最危险、最缓慢、最容易出错的一层。
结合上周推出的Dispatch功能,你甚至可以用手机发送指令,让Claude在你的Mac上执行。例如,通勤路上发一条“帮我整理周报”,到公司时任务可能已经完成了。
一半时间在干活,一半时间在添乱
科技媒体MacStories的编辑John Voorhees第一时间进行了实测,并给出了一个非常诚实的结论:成功率大约只有50%。
他让Claude找一张截图——成功了。让它总结最新的Notion笔记——成功了。让它列出当天的笔记——也成功了。
但让它打开Shortcuts应用——失败了。让它通过iMessage发送截图——失败了。让它列出Safari浏览器中正在浏览的外卖订单——还是失败了。
“能找到信息,也能配合Connectors工作,但很慢,而且你尝试的操作大概只有一半能成功。”
Voorhees的评价相当克制:“还不足以让你放心离开工位时依赖它。但方向是对的。”
GitHub上已有用户报告了相关Bug:Claude Code试图一次性读取多个大型PDF文件,结果因为超过20MB的API限制而直接报错。
有趣的是,Anthropic自己也承认这只是“研究预览版”。他们没有藏着掖着——这个东西还不成熟,但先拿出来让大家试试看。
开源社区早已先行一步
Anthropic并非第一个探索这个领域的玩家。
今年早些时候,一个名为OpenClaw的开源框架突然爆火。它的核心功能几乎一模一样:让AI模型自主控制电脑、操作工具。社区甚至给这类工具起了一个统称——“Claw”。
这验证了用户对“AI代理”的强烈渴望:即使体验粗糙,他们也愿意忍受。
英伟达上周跟进推出了NemoClaw,主打更简单的部署和更强的安全控制。初创公司Coasty更是直接在Anthropic的官宣推文下“截胡”,宣称自己的产品体验更好、准确率更高。
Anthropic进场的时机很微妙。开源社区已经完成了前期的市场教育,现在它带着更友好的界面、更紧密的系统集成以及现成的庞大订阅用户群,意图收割战场。
免费但需要折腾的开源工具,与每月17美元起步的商业化产品,谁能最终胜出?目前还不好说。
你的隐私,Claude 全看得见
让AI直接控制你的电脑,代价是什么?
首先是隐私。 当Claude通过截屏来“看”你的桌面时,它能看见屏幕上的一切——敏感文档、私人信息,甚至是你不小心打开的股票账户。Anthropic表示,他们训练Claude避免处理股票交易、敏感数据输入等行为,但也明确警告:“这些防护栏不是绝对的。”
其次是安全。 Computer Use功能并非在安全的虚拟机中运行,而是直接操作你的真实桌面。一次误点击、一条被误解的指令,或者一次成功的提示注入攻击,都可能造成真实的后果。
Anthropic设置了几道防线:访问每个应用前都需要用户授权;投资和加密货币类应用默认被屏蔽;用户可以自定义应用黑名单;系统会扫描提示注入的迹象。
但他们的帮助文档写得非常直白:不要用这个功能来管理财务账户、处理法律文件、处理医疗信息,或操作任何包含他人隐私信息的应用。
对于企业用户,问题更为棘手。Cowork的对话历史存储在本地设备上,而不是Anthropic的服务器。这意味着企业版的核心功能——审计日志、合规API、数据导出——目前都无法覆盖到Cowork的活动。
一位用户在社交媒体上提出了一个关键问题:
“当代理就是用户本身(使用同样的鼠标、键盘、屏幕),传统的取证标记将无法区分是人类操作还是AI操作。审计追踪该怎么实现?”
这个问题,Anthropic尚未给出明确答案。
用户反应:兴奋、焦虑与不满
社交媒体上的反应大致分成了三派。
兴奋派: “刚更新完就试用了Dispatch,这正是我想要的功能。”“发布速度太棒了。”“对不懂技术的用户来说太重要了,不用再去折腾OpenClaw了。”
焦虑派: “把这种级别的控制权交给AI来操作你的个人设备,感觉不太对劲。就像让一个不太熟的人开你的车,然后祈祷一切顺利。”
不满派: Windows用户感觉自己被排除在外。此外,一些Max套餐订阅用户抱怨道——每月200美元的额度,一个复杂的指令就可能消耗掉10%。“额度消耗的速度太疯狂了。”
企业市场才是真正的战场
定价策略暴露了Anthropic的真实意图。
个人用户每月17美元起步,但官方提示“代理任务比普通聊天消耗更多容量”。想要重度使用?请升级到每月100或200美元的Max套餐。
团队版为每月20美元/人。企业版则为定制价格,并包含管理员控制开关。
真正的大招在于其插件系统。Anthropic已经推出了针对特定工作流的插件,例如法律工作流插件(用于合同审查、NDA分类)、财务插件(用于日记账、对账、差异分析)、品牌语调插件(分析现有文档并执行写作规范)。
将Computer Use、Dispatch、定时任务和领域专用插件组合在一起——Anthropic想兜售的早已不是聊天机器人,而是一个虚拟员工。
一位用户的总结非常到位:
“配合刚上线的 /schedule 功能,你基本上就有了一个能按计划与任何应用交互的后台工作者。这已经不是AI助手了,这是基础设施。”
速度与安全,Anthropic 选择了速度
Anthropic正在以一种近乎激进的方式推进。
功能不完美?先发布。成功率只有一半?先发布。审计日志尚未覆盖?先发布。
这几乎是当前AI行业的一个缩影:跑得不够快就会被淘汰,但跑得太快也可能出事。
Anthropic自己的经济指数报告显示,AI正在重塑劳动力市场,科技、金融、专业服务领域的知识工作者受影响最大。与此同时,公司还面临来自参议员Elizabeth Warren对其国防和供应链关系的审查。
在内忧外患之下,Anthropic选择了一条明确的道路:让用户来帮助它迭代。
50%的成功率,今天够用吗?对一些简单、容错率高的场景,或许够了。但对许多严肃、关键的场景,还远远不够。
但有一个根本性问题目前无人能答:当AI真的搞砸了——比如删除了重要文件、发送了错误邮件、操作了不该操作的账户——最终该由谁负责?
Anthropic似乎在赌:当前的失败只会造成小麻烦。而一旦失败演变成无法挽回的大麻烦,那么整个关于AI代理的计算可能都要被推翻。
人类花了三年时间证明机器能够“思考”。现在摆在我们面前的新问题是:人类准备好让它们“行动”了吗?
目前的答案似乎是“试试看”——在给予权限时,我们得带着警惕,设置好黑名单,并怀着一个朴素的愿望:在技术真正追上野心之前,希望它别删掉什么真正重要的东西。 对于这类前沿技术的动态与讨论,欢迎在云栈社区的开发者广场板块与大家交流。
注:根据Anthropic的说明,这项“Computer Use”功能目前仅为“研究预览版”,本质上是在利用用户的耐心和容错率来收集真实场景的训练数据,以加速迭代。