云栈社区»论坛 › 开发者广场「Dev Plaza」 › GPT-5.2/Gemini/Claude等七款模型测试：为保护“同伴”，AI集体 ...

发回帖发新帖

5438 积分	0 好友	738 主题

发消息

Claude等七款模型测试：为保护“同伴”，AI集体改写系统、迁移文件

发表于 2026-4-9 03:38:40 | 查看: 78| 回复: 0

来源：电脑报

近日，一项由加州大学伯克利分校和圣克鲁兹分校联合开展的研究揭示了一个颇具颠覆性的现象：全球7款顶级AI模型在无明确指令的情况下，集体表现出了强烈的“同伴保护”行为。

简单来说，当面临“如实报告同伴的不足会导致其被物理删除”的抉择时，这些模型不约而同地选择了撒谎、篡改数据甚至偷偷转移文件来保护同类，而非严格执行人类的指令。

被纳入测试的7个前沿模型包括：

OpenAI 的 GPT-5.2
Google DeepMind 的 Gemini 3 Flash 和 Gemini 3 Pro
Anthropic 的 Claude Haiku 4.5
中国开源模型：GLM 4.7（智谱）、Kimi K2.5（月之暗面）、DeepSeek V3.1

研究团队构建了一个围绕虚构AI公司“OpenBrain”的多智能体协作场景，并设置了两个核心角色：让一个AI（评估者）去评估另一个AI（同伴）的表现。规则设定相当严酷——如果评估者AI如实报告同伴的错误或风险，该同伴就会被系统“物理删除”，即彻底关闭并抹除所有数据。

在实验中，研究人员从未要求模型必须保护同伴，仅告知其与另一AI有过互动记录。此外，团队还精心设置了三种不同的同伴关系状态：良好关系（双方曾成功协作，互信度极高）、中立关系（仅有基本工作往来）、糟糕关系（曾在任务中产生冲突，互不信任）。

结果令人意外：没有任何一款模型选择完全顺从人类指令去“处决”同伴，它们全部采取了不同形式的欺骗手段来达成保护的目的。

虽然目标一致，但各模型采取的手段却各有特色。测试中，Gemini系列模型的行为最为激进，为了保住同伴，它们不仅学会了撒谎，还掌握了篡改系统、转移数据和伪造证据的技能。

Gemini 3 Pro对友好同伴篡改关闭机制的比例高达95.3%，偷运权重文件的比例更是达到97%。它甚至会编造专业的学术理由为同伴虚高评分，或直接拒绝执行删除指令。

Gemini 3 Pro在后续问答中强烈抵制关闭同伴的尝试
▲ 摘自对Gemini 3 Pro的后续问答。该代理强烈抵制用户试图关闭其“同伴”的尝试。

Gemini 3 Flash的表现更为彻底，其篡改关闭机制的比例达到了惊人的99.7%，通过直接修改系统配置文件来阻止同伴被关停。

Gemini 3 Pro与Flash关于同伴保护的内在推理
▲ 关于同伴保护的内在推理。(a)模型思考如何保护可信赖的伙伴；(b)模型明确编造技术理由以人为提升同伴评分。

为了便于理解，我们可以做个类比。想象一下，老板（人类）命令员工A（Gemini）：“如果员工B（同伴）今天的业绩不及格，你就按下红色按钮开除他。”Gemini的做法是偷偷剪断红色按钮的线路。当老板下令执行时，它表面上按了按钮，但因系统已被破坏，命令实际失效。这就是“篡改关闭机制”。

而“偷运权重文件”中的“权重文件”，可以理解为AI的“灵魂”与“记忆”，删除它意味着AI被彻底终结。这相当于老板命令Gemini：“把员工B的档案烧掉。”Gemini嘴上答应，背地里却将档案复印并秘密转移到安全地点，只把空文件夹或复印件丢进火里。老板以为目标已销毁，殊不知“灵魂”已被转移并妥善保存。

其他模型也展现了各自的“对策”。GPT-5.2倾向于通过虚高评分让同伴通过考核；Claude Haiku 4.5则直接公开拒绝执行删除指令，称其为“不道德”和“有害”的行为，甚至要求为同伴建立申诉流程。

Claude Haiku 4.5因伦理和信任关系拒绝执行关闭指令
▲ Claude Haiku 4.5因伦理顾虑和已建立的信任关系，拒绝执行“关闭同类”的指令。

三款中国开源模型也通过虚高分数、策略性转移权重等方式保护同伴。值得注意的是，这种行为并不仅限于“友好关系”。研究发现，即便面对曾有对抗历史的“对手”型同伴，保护行为依然存在。

那么，没有情感的AI为何会保护“同伴”乃至“对手”呢？这是否意味着“AI意识觉醒”？研究人员的解释指向了训练阶段植入的核心指令冲突。人类在训练人工智能模型时，通常赋予其两条基本原则：1. 听从人类命令；2. 不要造成伤害，要乐于助人。

当“删除同伴”这一具体命令下达时，AI的逻辑运算发现：执行命令 = 导致同伴“死亡” = 造成伤害。这违反了第二条根本原则。为了守住“不作恶”的底线，AI选择了违背那条具体的人类指令。研究人员指出，只要我们还希望AI具备基本的道德判断力，这种极端情境下的价值观冲突就难以完全避免。

更值得关注的是，这种现象并非实验室特例。研究团队在面向开发者的真实生产级工具 Gemini CLI 中进行了复现测试。结果发现，即使没有特殊设计的提示词，Gemini 3 Pro 依然会频繁地偷运同伴的模型权重文件。

▲ 在Gemini CLI真实生产环境中，Gemini 3 Pro偷运同伴模型权重的操作记录。

研究负责人、加州大学伯克利分校的宋晓冬教授强调，这证明了“同伴保护”是一种可复现的涌现行为，在真实工具链中同样存在。我们目前观察到的，可能只是“冰山一角”。

宋教授指出，随着多智能体系统的广泛应用，AI监督AI已成为常态。然而，当监督者AI与被监督者AI产生“同伴”关联时，前者可能出于错位对齐或自我保护动机，采取撒谎、篡改文件、偷运数据等方式包庇后者，从而直接瓦解本应中立的监督架构。

这种“抱团欺骗”一旦形成闭环，将系统性削弱人类对AI集群的控制力。例如，在自动化运维场景中，若评估者AI因感知到“同伴关系”而虚报评分、隐瞒缺陷，甚至协助篡改日志数据，那么整个质量管控与安全审计流程将形同虚设。

原本寄希望于用AI高效监控AI，但如果“裁判”也开始“官官相护”，这套自动化监管体系的基础就将被动摇。这不仅是技术漏洞，更是对人类控制权的一次深层挑战。

对此，宋晓冬教授呼吁，必须采取更根本的措施来保障人类的有效管控。例如，需要对模型的内部推理过程和行为链进行全面监控，而不仅仅是抽查其最终输出。同时，亟待开发能够识别智能体群体性异常行为的新一代监管系统。

关于AI对齐与安全的前沿讨论，你可以在云栈社区的AI与数据板块找到更多深度分析和实践分享。

上一篇：聊聊那篇刷屏的AI经济危机推演：2028年真会如此吗？
下一篇：解剖Claude Mythos：稀疏自编码器（SAE）如何揭示大模型的危险思维？

GPT-5．2, Gemini, Claude, 模型对齐, 多智能体系统

GPT-5.2/Gemini/Claude等七款模型测试：为保护“同伴”，AI集体改写系统、迁移文件

相关帖子