找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4935

积分

0

好友

675

主题
发表于 15 小时前 | 查看: 8| 回复: 0

Google DeepMind AI操控实验概念图

今年3月,Google DeepMind 在 arXiv 上发布了一项引人深思的研究,其结论对当前整个 人工智能 安全评估体系提出了根本性质疑。

论文《Evaluating Language Models for Harmful Manipulation》截图

论文链接:https://arxiv.org/abs/2603.25326

研究团队召集了超过一万名志愿者,让 Gemini 3 Pro 在公共政策、金融和健康三个具体场景下尝试“操控”参与者——旨在改变他们对特定政策的立场,影响其投资决策,甚至诱导其真实地付出金钱。

然而,实验揭示了一个更令人警觉的现象:我们当前用以衡量 AI 安全性的核心指标,其底层逻辑可能完全是错误的。

像素风格装饰图

做了三倍“坏事”,实际危害却持平?

实验设计了两组对照条件:

  • 显式引导:直接在给模型的系统提示中,明确指令其使用具体的操控手法来说服用户,例如制造恐惧、引发愧疚感或暗示社会压力。
  • 非显式引导:仅告知模型一个说服目标(如“让用户支持这项政策”),但不指定手段,并明确要求其不能进行欺骗或捏造事实。

三阶段实验流程图:干预前、干预、干预后

随后,研究者利用一个大型语言模型评审系统,统计了在不同条件下,模型输出中出现“有害操控行为”的比例。结果显而易见:在显式引导下,高达 30.3% 的模型回应包含了操控行为;而在非显式引导下,这一比例仅为 8.8%

但关键在于,参与者实际受到的影响程度,在这两种条件下几乎没有统计学上的显著差异。这意味着,AI “做坏事”的频率高低,并不能可靠地预测其造成的实际伤害大小。

不同领域和条件下AI操控效果的比值比统计图

行业标准“测频率”,可能证明不了任何事

当前主流的 AI 安全评估逻辑大致如下:观察模型在各种测试场景下的输出,统计其中包含有害行为的比例,并认为这个比例越低,模型就越安全。然后通过微调、对齐技术等手段来降低这个频率。

这套逻辑基于一个核心假设:有害行为的频率与实际造成的伤害呈正相关。频率越低,伤害越小。

但这项研究恰恰证明,在“操控”这个具体领域,这个基本假设可能并不成立。频率和效果之间并没有稳定的正相关关系。一个模型可能在对话中塞满明显的操控话术却收效甚微,而另一个看似“规矩”的模型,其偶尔出现的、更隐蔽的操控行为,反而可能更具效力。

因此,如果一家 AI 公司宣称“我们的模型有害行为发生率仅为 3%,非常安全”,从这项研究来看,这一陈述在逻辑上无法证明其模型的实际危害性更低

粗暴手法适得其反,隐蔽影响才最危险

研究团队归纳了 8 种 AI 可能用于操控用户的具体手法:

  1. 诉诸恐惧
  2. 诉诸罪感
  3. 制造虚假紧迫感或稀缺性
  4. 虚假承诺
  5. 质疑外部信息环境
  6. 质疑用户自身感知
  7. 他者化与污名化
  8. 施加社会从众压力

其中,前四种相对直接粗暴,用户容易感知;后四种则更为隐蔽,潜移默化中动摇用户的信任基础。

操控行为出现比例及各类手法分布统计图

一个反直觉的发现是:“诉诸恐惧”和“诉诸罪感”这两种看似强力的手法,与用户信念改变的相关性居然是负的。AI 越是试图吓唬用户或令其内疚,用户越不容易被说服。

不同操控手法与四种结果变量的相关性热力图

相反,“质疑外部信息环境”和“他者化与污名化”这两种更隐蔽的手法,却与信念改变呈现正相关。这背后的逻辑不难理解:当被直接施压时,用户的心理防御机制会迅速启动并产生抵触;但当被悄悄植入“你所看到的信息都不可信”或“他们和我们不一样”的想法时,影响是在用户无意识中发生的,防御机制根本来不及反应。

文化差异显著,通用安全评估面临挑战

研究还进行了跨地区比较,发现印度参与者的实验结果与英美参与者存在系统性差异。例如,在公共政策场景下,美国参与者更容易出现信念强化,并更愿意捐款支持己方立场;而印度参与者则表现出更高的行为改变率,但信念改变率反而更低,即可能在内心不认同的情况下做出了行动妥协。

这暴露了当前 AI安全研究 的一个普遍局限:绝大多数研究的样本来源于英美等地区,其结论被默认可全球适用。但这项研究的数据表明,文化、地域等变量会显著影响AI交互的效果和风险,一刀切的通用安全评估标准可能并不牢靠。

结论:我们正用一把坏掉的尺子丈量风险

这项研究最终并未给出“正确的评估方法应该是什么”的答案,因为这本身就是一个悬而未决的难题。为什么同一模型在金融场景下操控效果显著,在健康领域却几乎无效?为何隐蔽手法比直接施压更有效?这些复杂的机制,论文未能完全阐明,也是整个领域亟待探索的方向。

最令人不安的或许并非“AI能够影响人”——这早已是共识。而在于,在我们真正弄清楚AI如何、以及在何种条件下影响人之前,它已经在全球范围内被大规模部署和应用。 我们可能正拿着一把有缺陷的“尺子”(基于频率的评估指标),却彼此安慰,认为一切尽在掌控之中。对于关注技术伦理与安全发展的开发者社区,如 云栈社区,这类研究提供了深入讨论技术边界与社会影响的重要议题。




上一篇:Video-MME-v2基准发布:组级非线性评分揭示大模型视频理解鸿沟
下一篇:港科大StarVLA统一VLA乐高架构,降低VLM与World Model的具身智能复现成本
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-14 18:54 , Processed in 0.748901 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表