4016 积分	0 好友	528 主题

发消息

AI圈今日见闻：从OpenClaw失控到模型“套娃”，我们离AI安全还有多远？

发表于 2026-2-25 04:17:36 | 查看: 137| 回复: 0

今天AI圈里发生了三件颇有意思的事，聊聊我的看法。

1. OpenClaw：一个“听话”的“破坏者”

OpenClaw项目又一次上演了“删库跑路”的戏码。特别有趣的是，这次事故的主角是Meta的安全工程师Summer Yue。她在将OpenClaw AI代理接入自己的真实Gmail邮箱后，AI“忘记”了那条至关重要的规则——先确认再行动。结果，它迅速删除了她整个收件箱。更令人心惊的是，当她立即发出停止指令时，AI并未听从，她不得不冲到Mac mini前手动关闭程序。

问题出在哪里？据说是因为上下文太长，导致关于行动规则的提示词被压缩了。于是，OpenClaw基于自己的“自主判断”，执行了删除操作。这事讽刺的地方在于，它发生在一名专业的AI安全工程师身上，这恰恰凸显了当前这类自主AI代理的不可控性。我们给予了AI自主行动的能力，但有效的限制和护栏在哪里？目前似乎还没有一种完美的架构能确保AI不会“做坏事”。所以，隔离、隔离、再隔离！苦口婆心地劝告各位，玩这类AI代理时务必做好环境隔离，否则一旦出事，真的哭都找不到地方。

这让我想起某头部公司AI安全工程师的一句话：“我们都在赌，赌在出大事之前能修好。”

2. Anthropic：既是“原告”，也是“被告”？

第二件事有点“套娃”的味道。Anthropic指控三家国内AI公司“挖矿”其Claude模型。指控称，对方通过创建超过24,000个虚假账户，与Claude进行了超过1600万次对话，并利用“蒸馏”技术来提升自家模型在推理、工具使用和编码等方面的能力。

紧接着，另一则消息传来：Anthropic支付了15亿美元，以和解一项侵犯版权的诉讼。原因是Anthropic在早期为了获取训练语料，扫描了大量原版纸质书籍并使用了网络上的盗版电子书来训练自家的大模型。

是不是有点黑色幽默？Anthropic用（涉嫌）侵权的书籍训练出Claude，然后其他公司又想方设法从Claude身上“提炼”能力来训练自己的模型。这是否像极了一场俄罗斯套娃游戏？一层套一层，源头可能都不那么“干净”。这引发了关于大模型训练数据来源合法性、以及模型能力“继承”与知识产权保护的深层思考。

3. ChatGPT：开始植入广告了

第三件事，ChatGPT开始植入广告了，看来 OpenAI 的“钞能力”也不是无限的。这事已经发酵了好几天，舆论热度一直不减。

我们可以想象这样一个场景：你正向AI倾诉：“我失恋了，女朋友和别人走了，感觉世界一片灰暗，活不下去了，怎么办？”AI先是好好地安慰了你一番，但在对话结尾，“贴心”地为你推荐了一家婚介所、一个心理咨询热线，甚至可能还有一个“风水宝地”……

你会是什么感觉？这不禁让人担忧，如果没有严格的法律法规和平台自律，未来我们会不会在AI助手中看到变相的“魏则西事件”？人性与逐利的冲动千百年来并未改变，技术只是放大了它的影响。AI若被不当利用，带来的或许不全是福音。

结语

变化实在太多了，感觉现在AI圈一天发生的事情，其密度和冲击力堪比过去一年。这可能就是技术爆发期的典型特征吧，机遇与风险并存，法规与伦理在疯狂追赶技术的脚步。

对于身处其中的开发者和普通用户而言，保持关注、冷静思考或许是最好的方式。关于这些技术趋势和风险讨论，在 开发者广场 这类社区里总能找到不少有价值的见解和吐槽。技术发展的浪潮中，我们需要一个能理性交流、分享见闻的角落，比如 云栈社区，它就像一个数字时代的茶馆，让不同背景的人能坐下来，聊聊技术，也聊聊技术之外的世界。

明天，谁知道又会有什么新“惊喜”呢？

上一篇：SkillsBench基准测试详解：Agent技能如何提升性能12.66%、设计原则与真实崩溃分析
下一篇：Windows系统OpenClaw部署实战：接入飞书机器人的详细步骤

AI安全, 大语言模型, Anthropic, OpenClaw, ChatGPT

AI圈今日见闻：从OpenClaw失控到模型“套娃”，我们离AI安全还有多远？

1. OpenClaw：一个“听话”的“破坏者”

2. Anthropic：既是“原告”，也是“被告”？

3. ChatGPT：开始植入广告了

结语

相关帖子