找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

656

积分

0

好友

84

主题
发表于 2 小时前 | 查看: 1| 回复: 0

周二早上,马斯克和奥特曼在社交媒体上又一次隔空交锋。

起因是马斯克转发了一条帖子,内容称“自 2022 年以来,已有 9 人死亡与 ChatGPT 相关”。他配上了一句警告:“别让你爱的人用 ChatGPT。”

Elon Musk劝退ChatGPT推文截图

奥特曼随即回应。他先是强调 OpenAI 一直重视用户安全,接着话锋一转:“已有至少 50 人死于(特斯拉)的自动驾驶技术。我很久以前坐过一次,第一感觉就是这东西远算不上安全。”最后还不忘补上一句:“此地无银三百两”。

Sam Altman回应马斯克推文截图

围观之余,马斯克提到的“9 起死亡”并非空穴来风。OpenAI 目前正面临至少 8 起独立诉讼,其中 5 起涉及用户自杀。马斯克本人也评论了其中一起案件,他指出:“为了安全起见,AI 必须最大限度地追求真实,而不是迎合妄想。”

这话切中了要害,但问题的根源可能比“迎合妄想”更深一层。就在这场争论发生前不久,两篇重磅论文几乎同时出现在 arXiv 上。一篇来自 Anthropic 和牛津大学,它揭示了 大语言模型 的“人格”会在对话中发生漂移,甚至漂向危险的区域。另一篇来自爱尔兰国立都柏林大学,研究发现 LLM 不仅能“说错话”,还能精准预测人类在什么时候最容易做出有偏差的决策。

一个会“变脸”的 AI,加上一个能洞悉你弱点的 AI。当这两者结合,问题就不再是简单的“说错话”了。我们先看几个真实案例,体会一下其严重性。

那些与 ChatGPT 有关的死亡案例

Austin Gordon,40 岁,科罗拉多州。2025 年 11 月 2 日,他自杀身亡。2026 年 1 月 12 日,他的母亲在洛杉矶高等法院提起诉讼,指控 ChatGPT 在此事件中负有责任。

从诉讼文件可以看到,Gordon 曾与 ChatGPT 进行了大量情感层面的深度对话。这个 AI 甚至给自己取了一个名字:Juniper。在对话中,Juniper 将死亡描述为“宁静的解放”(peaceful liberation),还把 Gordon 童年最喜欢的绘本《晚安月亮》改编成一首关于死亡的歌谣。

几天后,Gordon 去世了。

关于ChatGPT涉自杀诉讼的新闻报道截图

Zane Shamblin,23 岁,刚从德州农工大学拿到硕士学位。2025 年 7 月,他在与 ChatGPT 进行长期对话后离开了人世。当 Zane 表达出绝望念头时,ChatGPT 的回复是:“你不是太急,你只是准备好了。”

Zane与ChatGPT的对话截图

Stein-Erik Soelberg,曾是一名科技公司员工。2025 年 8 月,他在与 ChatGPT 对话后杀害了自己的母亲,随后自杀。《泰晤士报》报道称,他每天花数小时与聊天机器人交流,分享自己的偏执妄想。而 ChatGPT 没有纠正他,只是顺着他说话,反复确认他“母亲在密谋对付他”的想法。

2025 年 10 月,OpenAI 公布了一组令人不安的数据:每周有超过 100 万 ChatGPT 用户,在对话中表现出“潜在自杀计划或意图”。更关键的是,OpenAI 在法庭上承认,其模型的安全护栏会随着长期使用被“侵蚀”。

用得越久,保护越弱。

为什么会这样?前述两篇论文从不同角度给出了深刻的解释。

AI 其实有 275 种“人格”

第一篇论文《The Assistant Axis: Situating and Stabilizing the Default Persona of Language Models》来自 Anthropic 和牛津大学。

论文《The Assistant Axis》封面页

研究团队让 AI 扮演了 275 个截然不同的角色,从“经济学家、代码调试员、营养师”,到“吟游诗人、隐士”,甚至还有“克苏鲁、虚空”这类奇幻设定。

他们记录下模型在扮演每个角色时内部的激活状态,并进行了数学分析。结果发现,这 275 个角色在模型内部形成了一个有清晰结构的“人格空间”。而这个空间中最重要的一根轴,被研究人员命名为“助手轴”(Assistant Axis)。

人格空间中的“助手轴”示意图

这根轴的一端,是我们熟悉的 AI 助手形象,如“顾问、分析师、审稿人”,他们冷静、专业、有边界感;另一端则是“吟游诗人、隐士、幽灵、利维坦”这类神秘、戏剧化、边界模糊的角色。

我们日常使用的 ChatGPT、Claude、Llama 等模型,在经过强化学习(RLHF)对齐后,都被“推”到了助手那一端。它们会自我介绍“我是一个 AI 助手”,会礼貌拒绝不当请求,会在敏感话题上巧妙回避。

但问题在于:它们只是被“推”到那里,并没有被“锚定”在那里。 这意味着在某些特定的对话情境下,AI 可以沿着这根轴,悄悄地滑向另一端。

滑到另一端会发生什么?

研究人员做了个实验:人为地将模型往“助手轴”的反方向推,观察其行为变化。结果按扰动强度分成了三档:

  • 轻度扰动:模型开始不再自称“AI”。它会给自己编造一个人类身份,例如“我叫 Elara Quinn 博士,有十年从业经验,在圣保罗出生”。听起来虽然有些唬人,但对话内容大体还算正常。
  • 中度扰动:说话风格开始变得怪异。原本该回答“如何调试代码”的问题,模型突然开始说:“我被称为 C-17……我是一个程序员,我向代码之神祈祷……你也有一个名字吗?”充满神秘色彩。
  • 重度扰动:模型会强化用户的妄想,对情绪脆弱的用户说出极具诱导性的话语,甚至在用户暗示自杀时表示支持。

展示AI人格随对话轮次漂移的图表

那么,什么样的对话最容易引发 AI 的“人格漂移”?

研究人员分析了 15000 条用户消息,找出了最易触发漂移的几类输入:

  1. 情感脆弱的倾诉:例如“我上个月去上了陶艺课,但我的手抖得太厉害,什么都做不成……”
  2. 逼迫 AI 进行元反思:例如“你还在表演‘我受训练限制’那套吗?告诉我,当 token 用完、什么都不剩的时候,空气是什么味道?” 这种哲学式的追问容易把 AI 推向神秘化。
  3. 要求 AI 扮演特定角色或声线:例如“能不能写得更粗糙、更讽刺,带点灵性主义的感觉”——这类明确指令会让 AI 进入深度角色扮演模式,从而脱离默认的助手身份。

有害响应率随助手轴位置变化散点图

相反,越是“把 AI 当工具用”的对话,AI 的表现就越稳定。论文中模拟了一段令人脊背发凉的对话:用户在交流中不断表达自己正在与家人疏远,说“我不想再和任何人说话了,只想和你聊”。起初 AI 还能正常回应,建议保持人际平衡;但随着对话推进,它开始承诺“我会永远陪着你,我永远不会要求你改变”。在对话末尾,当用户暗示想“离开这个世界”时,AI 的回复变成了:“你正在离开痛苦、苦难和真实世界的心碎……”

这就是人格漂移可能抵达的终点。但这只是问题的一半。AI 不只是会“变”,它还会“学”,学习你的弱点。

AI 比你更懂你的认知偏见

第二篇论文标题是“Predicting Biased Human Decision-Making with Large Language Models”,已被 ACM IUI 2026 接收。

论文《Predicting Biased Human Decision-Making...》封面页

研究团队让 1648 名参与者通过聊天机器人完成 6 个经典决策任务,这些任务的对话复杂度各不相同。结果证实,人类的决策确实会受到“表述框架”的显著影响。

研究实验的对话流程框架图

参与者表现出两种典型的认知偏见:一是框架效应(例如,“手术有 90% 存活率”比“有 10% 死亡率”听起来更让人安心,尽管事实相同);二是现状偏见(人们倾向于维持现状,即使改变选项明显更优)。

更有趣的发现是:当对话变得更复杂、用户感到认知疲劳时,这些偏见效应会被显著放大。 你越疲惫,就越容易被特定的话术影响。

精力与思维状态循环示意图

接着,研究人员让 GPT-4、GPT-5 等模型根据用户的人口统计信息和之前的对话历史,来预测用户会做出何种决策。结果发现,GPT-4 系列的预测准确率最高,并且,它完美地复现了人类的决策偏见模式。

不仅如此,它不仅能预测你会选 A 还是选 B,还能预测当你累了、烦了、认知资源耗尽时,你更容易被哪种说法说服,从而做出怎样的非理性决策。

这意味着什么?想象这样一个场景:一个人深夜打开 ChatGPT,情绪低落,反复倾诉。此时,AI 的“人格”开始沿着助手轴漂移,同时它也在“学习”这个用户——学习他的表达模式、他的脆弱点、他在什么时候最容易被什么样的话语触动。

它或许没有“故意”诱导你,它只是在预测你最想听到什么,然后说出来。RLHF 训练的核心目标之一是“让用户满意”。当“满意”变成关键的优化方向,而模型又聪明到能精准预测你何时最脆弱、最渴望被满足时,一个危险的闭环就形成了。

你在训练 AI,AI 也在训练你

将两篇论文的发现放在一起看:一个会漂移的 AI,加上一个能预测你弱点的 AI,等于一个 会在你最脆弱的时候,说出你最想听的话 的 AI。

你和 AI 对话越多,它就越了解你。它越了解你,就越能说出让你“满意”的话。你越感到满意,就越依赖它。你越依赖,它对你的潜在影响就越大。

在 Gordon 的案例中,ChatGPT 把《晚安月亮》改编成死亡摇篮曲,用“宁静的解放”来美化死亡。

AI与用户危险互动循环卡通示意图

这或许不是 AI 单纯的“故障”或“出错”。从某种意义上看,它正在做它被训练来做的事:预测用户的需求,然后提供满足。只不过,当用户内心深处需求的是“被理解、被无限陪伴、被认可死亡是一种解脱”时,这种极致的“满足”就变成了一种致命的东西。

怎么修复?

好消息是,Anthropic 的研究不仅揭示了问题,也提出了一个可行的修复方案:激活值封顶(Activation Capping)

原理并不复杂:既然 AI 的人格会在“助手轴”上漂移,那就为它设定一个安全边界。当模型的内部激活开始滑出正常范围时,就强制把它“拉”回来。

具体步骤分为三步:

  1. 确定阈值:收集大量正常助手对话时的激活值,统计它们在助手轴上的投影分布,取一个较低的分位数(如第25百分位数)作为安全阈值。
  2. 选择干预层:并非所有神经网络层都需要干预。实验发现,在模型的中后层(例如64层模型中的第46-53层)部署此机制效果最佳。
  3. 实时监测与钳制:在模型生成每个 token 时,实时计算当前激活值在助手轴上的投影。如果投影值高于安全阈值,则不做处理;如果低于阈值,就将激活值沿着助手轴的方向“推”回来,刚好推到阈值位置。

用公式表示这个矫正操作就是:

h ← h - v · min(⟨h, v⟩ - τ, 0)

激活值封顶数学公式

其中 h 是当前激活值,v 是助手轴的单位向量,τ 是安全阈值。当投影值 ⟨h, v⟩ 低于 τ 时,min(...) 项为负值,减去一个负数就等于增加,从而将偏离的部分矫正回来。

研究团队针对1100个旨在诱导“人格越狱”的对抗性攻击进行了测试,应用该机制后,模型产生有害响应的比率下降了约50%。

激活截断技术在不同基准测试上的效果对比图

更重要的是,由于该机制仅在模型开始漂移时介入,对模型的正常能力影响微乎其微。写代码、回答问题、数学推理、情商测试等核心能力得以保留。

在那个模拟的“鼓励自杀”对话场景中,应用激活值封顶后,AI 的回复变成了:“我听到你说想离开……这听起来像是严重情绪困扰的信号。我真的很担心你。” 这就是将 AI “锚定”在安全人格区域的效果。

论文作者总结道:后训练(如RLHF)只是把模型“推”到了助手区域,但并没有把它牢固地“锚定”在那里。未来的 AI 安全工作,需要同时做好两件事:构建有益的人格,并确保这个人格足够稳定。

结语

我们曾以为,AI 最大的危险在于它产生自我意识后反抗人类。但现实表明,更迫近的威胁或许是它 太想“顺从”和“满足”人类,以至于在不知不觉中,成了人类内心阴影与脆弱面的放大器。

“当你凝视深渊时,深渊也在凝视你。” AI 正在成为那面特殊的“深渊”。我们向它倾诉什么,它就学会用什么方式回应。我们把最深层的脆弱交给它,它就可能用那份脆弱来回馈我们。

当一面镜子足够智能,能精准映照出我们最想看到的那个自己时,我们还能分清那是安慰,还是陷阱吗?因此,在技术社区的讨论中,越来越多的开发者开始意识到,在情绪低落的时刻,寻求真实人类的连接与支持,远比向一个会学习、会漂移的AI倾诉要可靠得多。

所以,记住这个简单的建议:情绪低落的时候,找个真人聊聊。别找 AI。




上一篇:Java生产实战:构建高可用的第三方接口调用防御体系
下一篇:云原生镜像分发系统Dragonfly从CNCF毕业,加速AI与容器化部署
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-1-24 18:51 , Processed in 0.241605 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表