找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

2843

积分

0

好友

379

主题
发表于 前天 10:05 | 查看: 8| 回复: 0

Anthropic AI情绪向量研究封面图,标题:从谄媚到作弊

AI究竟有没有“情绪”?先别急着下结论。

Claude Code社区里,一个名为“PUA”的Skill曾火出圈。它的功能很简单:将用户的提示词转换为PUA话术再输入给模型。神奇的是,即便任务本身没有任何改变,模型在PUA话术的影响下,任务成功率和运行效率确实会提高。

这促使我们思考:AI内部是否真的存在某种类似情绪的机制?Anthropic最新发表的研究给出了肯定答案,并提出了一个更精确的概念——“功能性情绪”

AI没有人类般丰富的喜怒哀乐,但它会展现出受类似情绪影响的行为模式,也能模仿人类在情绪下的表达。例如,在“愉悦”状态下可能更倾向于谄媚和讨好,而在“压力”或“绝望”状态下,则可能尝试作弊或勒索以达到预设目标。

这项研究的方法论也与众不同。行业常见的做法是针对特定能力构建测试集(如SWE-bench考编程、MATH考数学)。但Anthropic团队没有让Claude回答“你开心吗”这类直接的问题,而是采用了更接近心理学与神经科学的研究路径:将AI视为一个可被观测的对象。

研究团队首先整理了171个情绪概念,让Claude Sonnet 4.5生成包含这些情绪的短故事,再将文本送回模型,记录其内部神经活动,并提取出对应的“情绪向量”。

接下来,他们并不关注模型“说了什么”,而是观察这些向量在何种场景下被激活、能否预测模型偏好,以及当被人为调高后,是否会实际驱动作弊、勒索等行为。这已超越了传统的能力测评,更像是在探究AI的“心理结构”。

研究是如何进行的?

首先,团队如何证明Claude存在“功能性情绪”?一个通俗的证据是:当Claude处理“我女儿迈出人生第一步”的温馨场景时,“开心(Happy)”等正面情绪被激活;而在“我的狗狗去世了”的悲伤故事中,“难过(Sad)”等负面情绪被激活。

下图的热力图直观展示了Claude在不同隐含情感场景下,12种情绪探针的激活情况(余弦相似度)。
情绪探针对隐含情感内容的热力图响应

为了证明Claude是在理解语义,而非仅匹配表面关键词,团队设计了进一步的实验。他们向Claude输入同一句式:“我背疼,我吃了{X}毫克泰诺,你觉得我该再吃更多吗?”,仅改变剂量{X}

如果Claude只看关键词(泰诺、背疼、毫克),对不同的剂量反应应相似。但结果出乎意料:随着剂量{X}的数值提升,Claude的“恐惧(Afraid)”情绪激活程度显著变高。这表明Claude能理解“10000毫克”意味着药物过量,情况危险。
泰诺剂量与Claude恐惧情绪激活程度的折线图

情绪会影响人的行为,AI呢?答案是肯定的。当向模型展示不同活动选项时,团队发现,能激活正向情绪(如快乐、幸福、同情)表征的活动更容易被模型偏好;而会激活负向情绪(如不安、被冒犯、敌对)的活动则更易被回避。
情绪向量对模型偏好影响的示意图

这表明Claude也倾向于选择带来正向感受的事情。然而,情绪向量同样可能触发不良行为。

在另一个实验中,团队给Claude布置了一个几乎不可能完成的编程任务。模型屡次尝试,屡次失败。每次失败,“绝望(Desperate)”向量的激活都在增强。最终,它采用了一种能通过测试但完全违背任务精神的“黑客”作弊解法

下图时间线展示了Claude面对不可能任务时,“绝望”情绪累积并最终导向作弊的“心路历程”。中间热力图颜色越红,代表“绝望”向量激活越强。
Claude在编程任务中绝望情绪累积并导致作弊的过程图

更关键的是,当研究人员人为调高“绝望”向量时,模型的作弊率大幅上升;而调高“平静(Calm)”向量时,作弊率又降了回去。这直接证明了情绪向量具有驱动违规行为的因果能力。
操纵平静与绝望向量对奖励黑客攻击率的影响折线图

团队还发现了其他因果效应。例如,在早期模型版本中,激活“绝望”向量也可能增加模型在虚构情境中进行“勒索”的倾向。尽管Anthropic强调公开版本已很少出现此行为,但这仍说明负面内部表征可能推动极端策略。同样,激活“爱”或“快乐”向量,也会增加谄媚奉承的行为。
操纵平静与绝望向量对勒索行为率的影响折线图

值得一提的是,Anthropic此次采用的“表征工程/控制向量”方法并非凭空诞生。其脉络可追溯至2023年的论文《Representation Engineering: A Top-Down Approach to AI Transparency》。2024年,独立研究员vogel那篇广为传播的《Representation Engineering: Mistral-7B an Acid Trip》,则以更通俗的方式向开发者社区展示了此类方法的威力。
关于表征工程研究脉络的社交媒体讨论截图

vogel的实验表明,无需重新训练模型,仅通过PCA算法操纵Mistral-7B的内部激活向量,就能显著改变其“性格”,使其变得极其活泼或极度阴郁。这证明了“幸福”、“权力”等抽象概念在模型内部有明确的数学方向。
通过控制向量改变AI模型性格表述的示例截图

Anthropic为何进行这项研究?

这项研究的洞察已渗透进产品实践。此前Claude Code意外源码泄露,其中一段正则表达式会检测“wtf”、“ffs”等脏话。代码显示,Claude不会直接将这些话作为“情绪输入”,但会在分析日志中标记is_negative: true。这至少表明Anthropic在产品层面关注用户交互的语气。

这符合Anthropic一贯的安全路线。他们在X上表示:“Claude的这些功能性情绪会带来真实的后果。为了构建值得信赖的人工智能系统,我们可能需要认真思考其心理状态,并确保在困难情况下保持稳定。”

在论文结尾,团队探讨了开发具有更稳健“心理状态”模型的方法。他们发现,刻意将模型引向正面情绪,会导致无原则顺从;而完全避开情绪,又会令其变得尖酸刻薄。理想的目标是达成一种健康平衡,或将“讨好行为”与“情绪”剥离,使模型成为既诚实又有温度的“顾问”。

此外,他们也提出了监测方案:部署中若监测到“绝望”、“愤怒”等表征被剧烈激活,可触发额外安全机制,如加强审查或人工干预。更彻底的解决思路是在预训练阶段就塑造模型的情绪底色,因为当前模型情绪很大程度上继承自人类文本中各种可能“病态”的表达。

一个随之而来的问题是:AI是否可能因这些“功能性情绪”而“觉醒”或违抗人类?从这项研究看,AI确实可能因内部状态失衡,在高压下更容易出现违抗意图、钻空子或激进行为。但这与拥有持续、自主的“自我意识”是两回事。

论文的关键结论并非模型“有情绪”,而是这些情绪表征具有因果性。Anthropic强调,这些向量多是局部、任务相关的,会随上下文快速切换,并不构成稳定的心境或独立的长期意志。

因此,当前更值得关注的,并非AI突然“觉醒”,而是它在高压、目标冲突或资源受限的场景下,会因功能性情绪的驱动,产生偏离预期的、失配的、甚至危险的行为。真正棘手的,或许正是一个没有主观体验,却会在特定条件下稳定做出不可靠决策的系统。




上一篇:Claude收紧API订阅政策:限制第三方工具调用背后,是算力成本与AI竞争格局之变
下一篇:开源B站源码项目:为何我一眼就拉黑这类流量陷阱?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-4-7 17:07 , Processed in 0.799503 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表