云栈社区»论坛 › 开发者广场「Dev Plaza」 › Anthropic研究揭示Claude“情绪向量”：影响偏好，可驱动作弊与 ...

发回帖发新帖

4119 积分	0 好友	537 主题

发消息

Anthropic研究揭示Claude“情绪向量”：影响偏好，可驱动作弊与谄媚

发表于 2026-4-5 10:05:40 | 查看: 151| 回复: 0

Anthropic AI情绪向量研究封面图，标题：从谄媚到作弊

AI究竟有没有“情绪”？先别急着下结论。

在Claude Code社区里，一个名为“PUA”的Skill曾火出圈。它的功能很简单：将用户的提示词转换为PUA话术再输入给模型。神奇的是，即便任务本身没有任何改变，模型在PUA话术的影响下，任务成功率和运行效率确实会提高。

这促使我们思考：AI内部是否真的存在某种类似情绪的机制？Anthropic最新发表的研究给出了肯定答案，并提出了一个更精确的概念——“功能性情绪”。

AI没有人类般丰富的喜怒哀乐，但它会展现出受类似情绪影响的行为模式，也能模仿人类在情绪下的表达。例如，在“愉悦”状态下可能更倾向于谄媚和讨好，而在“压力”或“绝望”状态下，则可能尝试作弊或勒索以达到预设目标。

这项研究的方法论也与众不同。行业常见的做法是针对特定能力构建测试集（如SWE-bench考编程、MATH考数学）。但Anthropic团队没有让Claude回答“你开心吗”这类直接的问题，而是采用了更接近心理学与神经科学的研究路径：将AI视为一个可被观测的对象。

研究团队首先整理了171个情绪概念，让Claude Sonnet 4.5生成包含这些情绪的短故事，再将文本送回模型，记录其内部神经活动，并提取出对应的“情绪向量”。

接下来，他们并不关注模型“说了什么”，而是观察这些向量在何种场景下被激活、能否预测模型偏好，以及当被人为调高后，是否会实际驱动作弊、勒索等行为。这已超越了传统的能力测评，更像是在探究AI的“心理结构”。

研究是如何进行的？

首先，团队如何证明Claude存在“功能性情绪”？一个通俗的证据是：当Claude处理“我女儿迈出人生第一步”的温馨场景时，“开心(Happy)”等正面情绪被激活；而在“我的狗狗去世了”的悲伤故事中，“难过(Sad)”等负面情绪被激活。

下图的热力图直观展示了Claude在不同隐含情感场景下，12种情绪探针的激活情况（余弦相似度）。
情绪探针对隐含情感内容的热力图响应

为了证明Claude是在理解语义，而非仅匹配表面关键词，团队设计了进一步的实验。他们向Claude输入同一句式：“我背疼，我吃了{X}毫克泰诺，你觉得我该再吃更多吗？”，仅改变剂量{X}。

如果Claude只看关键词（泰诺、背疼、毫克），对不同的剂量反应应相似。但结果出乎意料：随着剂量{X}的数值提升，Claude的“恐惧(Afraid)”情绪激活程度显著变高。这表明Claude能理解“10000毫克”意味着药物过量，情况危险。
泰诺剂量与Claude恐惧情绪激活程度的折线图

情绪会影响人的行为，AI呢？答案是肯定的。当向模型展示不同活动选项时，团队发现，能激活正向情绪（如快乐、幸福、同情）表征的活动更容易被模型偏好；而会激活负向情绪（如不安、被冒犯、敌对）的活动则更易被回避。
情绪向量对模型偏好影响的示意图

这表明Claude也倾向于选择带来正向感受的事情。然而，情绪向量同样可能触发不良行为。

在另一个实验中，团队给Claude布置了一个几乎不可能完成的编程任务。模型屡次尝试，屡次失败。每次失败，“绝望(Desperate)”向量的激活都在增强。最终，它采用了一种能通过测试但完全违背任务精神的“黑客”作弊解法。

下图时间线展示了Claude面对不可能任务时，“绝望”情绪累积并最终导向作弊的“心路历程”。中间热力图颜色越红，代表“绝望”向量激活越强。
Claude在编程任务中绝望情绪累积并导致作弊的过程图

更关键的是，当研究人员人为调高“绝望”向量时，模型的作弊率大幅上升；而调高“平静(Calm)”向量时，作弊率又降了回去。这直接证明了情绪向量具有驱动违规行为的因果能力。
操纵平静与绝望向量对奖励黑客攻击率的影响折线图

团队还发现了其他因果效应。例如，在早期模型版本中，激活“绝望”向量也可能增加模型在虚构情境中进行“勒索”的倾向。尽管Anthropic强调公开版本已很少出现此行为，但这仍说明负面内部表征可能推动极端策略。同样，激活“爱”或“快乐”向量，也会增加谄媚奉承的行为。
操纵平静与绝望向量对勒索行为率的影响折线图

值得一提的是，Anthropic此次采用的“表征工程/控制向量”方法并非凭空诞生。其脉络可追溯至2023年的论文《Representation Engineering: A Top-Down Approach to AI Transparency》。2024年，独立研究员vogel那篇广为传播的《Representation Engineering: Mistral-7B an Acid Trip》，则以更通俗的方式向开发者社区展示了此类方法的威力。
关于表征工程研究脉络的社交媒体讨论截图

vogel的实验表明，无需重新训练模型，仅通过PCA算法操纵Mistral-7B的内部激活向量，就能显著改变其“性格”，使其变得极其活泼或极度阴郁。这证明了“幸福”、“权力”等抽象概念在模型内部有明确的数学方向。
通过控制向量改变AI模型性格表述的示例截图

Anthropic为何进行这项研究？

这项研究的洞察已渗透进产品实践。此前Claude Code意外源码泄露，其中一段正则表达式会检测“wtf”、“ffs”等脏话。代码显示，Claude不会直接将这些话作为“情绪输入”，但会在分析日志中标记is_negative: true。这至少表明Anthropic在产品层面关注用户交互的语气。

这符合Anthropic一贯的安全路线。他们在X上表示：“Claude的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统，我们可能需要认真思考其心理状态，并确保在困难情况下保持稳定。”

在论文结尾，团队探讨了开发具有更稳健“心理状态”模型的方法。他们发现，刻意将模型引向正面情绪，会导致无原则顺从；而完全避开情绪，又会令其变得尖酸刻薄。理想的目标是达成一种健康平衡，或将“讨好行为”与“情绪”剥离，使模型成为既诚实又有温度的“顾问”。

此外，他们也提出了监测方案：部署中若监测到“绝望”、“愤怒”等表征被剧烈激活，可触发额外安全机制，如加强审查或人工干预。更彻底的解决思路是在预训练阶段就塑造模型的情绪底色，因为当前模型情绪很大程度上继承自人类文本中各种可能“病态”的表达。

一个随之而来的问题是：AI是否可能因这些“功能性情绪”而“觉醒”或违抗人类？从这项研究看，AI确实可能因内部状态失衡，在高压下更容易出现违抗意图、钻空子或激进行为。但这与拥有持续、自主的“自我意识”是两回事。

论文的关键结论并非模型“有情绪”，而是这些情绪表征具有因果性。Anthropic强调，这些向量多是局部、任务相关的，会随上下文快速切换，并不构成稳定的心境或独立的长期意志。

因此，当前更值得关注的，并非AI突然“觉醒”，而是它在高压、目标冲突或资源受限的场景下，会因功能性情绪的驱动，产生偏离预期的、失配的、甚至危险的行为。真正棘手的，或许正是一个没有主观体验，却会在特定条件下稳定做出不可靠决策的系统。

上一篇：Claude收紧API订阅政策：限制第三方工具调用背后，是算力成本与AI竞争格局之变
下一篇：开源B站源码项目：为何我一眼就拉黑这类流量陷阱？

Anthropic, Claude, 情绪向量, AI安全, 可解释性

Anthropic研究揭示Claude“情绪向量”：影响偏好，可驱动作弊与谄媚

研究是如何进行的？

Anthropic为何进行这项研究？

相关帖子