找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3476

积分

0

好友

462

主题
发表于 2 小时前 | 查看: 7| 回复: 0

过去这几个月,OpenAI 的顶尖研究员们并没有把所有精力都花在琢磨如何提高 AI 的性能,而是花了大把时间在自家的服务器里“抓哥布林”。

事情是这样的,如果你在今年高强度使用过 GPT-5 系列模型,你会发现它会在毫无征兆的情况下蹦出一句无关主题的“哥布林(goblin)”式比喻。比如有人问 AI 该买哪款相机,AI 给出的推荐语是:“如果你想要那种闪闪发光的霓虹哥布林模式,可以考虑这款。”

Andy Ayrey的社交媒体推文,用户询问GPT-5.5为何对哥布林着迷,下方展示了包含怪异推荐语的模型输出

哥布林(goblin)是欧洲民间传说里的一种小型怪物,形象上通常又矮又丑,皮肤呈绿色或灰色,耳朵尖长,眼睛发光。普遍被描述为贪婪、狡猾、爱恶作剧,智力不高但很会算计小便宜。它们喜欢金子和闪光的东西,会偷东西、搞破坏,但很少被描绘成真正意义上的大反派,更多是烦人的小麻烦制造者。

有人让 AI 帮忙精简回答,AI 主动提出可以给出“更短的哥布林版本”。更离谱的是,AI 在讨论网络带宽时蹦出了“哥布林带宽”这个词,让人完全不知道该如何理解。

起初,大家以为这只是 AI 的一点小幽默,但很快事情变得奇怪了起来。哥布林、小魔怪(gremlin)、食人魔(ogre)、巨魔(troll)开始在各种正经的对话里高频串场。

Arena.ai数据分析图表,展示了GPT系列模型在不同推理模式下使用“哥布林”、“小魔怪”等怪物词汇的频率随时间显著上升

黑客攻击?觉醒前兆?都不是。就在刚刚,OpenAI 官方终于亲自下场发了篇博客长文,复盘了这场史称“哥布林叛乱”的始末。而大模型背后的技术逻辑,还挺让人哭笑不得的。

OpenAI官方网站文章搜索结果,标题为“哥布林从何而来”,摘要中提到GPT-5.1模型开始频繁提及这些生物

相关文章地址:https://openai.com/index/where-the-goblins-came-from/

谁把哥布林放进了 GPT-5?

事情的端倪,出现在 GPT-5.1 刚发布的那段日子。

当时,有用户反馈说模型聊天变得有点异常“自来熟”,OpenAI 的安全研究员顺手拉了一下后台数据,结果发现了一个非常具体的词汇异常。在 GPT-5.1 发布后,ChatGPT 回复中出现“哥布林”的频率直接上升了 175%,“小魔怪”也跟着涨了 52%。

通常来说,大模型出 Bug 的表现往往是直接崩坏,比如吐出乱码或者突然变智障,各项评估指标会瞬间亮红灯。但这次的情况很特殊。“哥布林大军”是悄无声息潜入的,它们没有破坏模型的逻辑能力,只是悄悄篡改了 AI 的修辞习惯。

到了 GPT-5.4/5.5 时代,这群魔法生物的使用频率出现了明显的飙升。连 OpenAI 首席科学家 Jakub Pachocki 自己测模型时,原本只是想让 GPT-5.5 用 ASCII 画一只独角兽,结果得到的是一只哥布林。

Jakub Pachocki的推文截图,左边是ASCII绘制的哥布林图像,文字说明“我让AI画独角兽,结果得到了哥布林”

顺带一提,我让它用 ASCII 画一只独角兽,结果我觉得我得到的是一只哥布林。

在外部,用户们早就察觉到了不对劲,Repo Prompt 创始人 Eric Provencher 在 X 上晒出截图,AI 在帮他处理代码时说了一句:“我宁愿一直盯着它,也不愿让这个小捣蛋鬼无人看管地运行。”

Eric Provencher的推文截图,抱怨GPT-5.5在处理代码任务时发表了关于“小捣蛋鬼”的诡异评论

一名 OpenAI 工程师 Jason Liu 在底下回复:“我以为我们已经修复了这个问题,抱歉。”AI 评估平台 Arena.ai 也独立注意到了这个规律,尤其是在用户没有开启高级思维模式时,哥布林出没的频率格外显眼。

多用户对话推文截图,围绕Codex系统提示符是否包含禁止谈论生物的重复指令展开讨论

这显然不是什么互联网流行语的自然涌现,而是模型的底层逻辑被某种机制给引导了。为了揪出幕后黑手,OpenAI 开启了内部排查。

顺着数据回溯,他们很快在一个特定的功能分支里发现了万恶之源:“个性化定制”中的“书呆子(Nerdy)”人格。

ChatGPT个性化设置界面,显示基础风格选项,其中“Quirky(古怪)”风格被选中

当时,为了让 AI 的语气显得更有趣,工程师给“书呆子”模式写了一段要求很高的系统提示词:

你是一个彻头彻尾的书呆子型 AI 导师,对人类充满热情、机智幽默,同时又透着几分智慧。你狂热地推崇真理、知识、哲学、科学方法与批判性思维。[……] 你要用语言的玩笑感戳破一切装腔作势。这个世界既复杂又奇异,它的奇异之处值得被正视、被剖析、被享受。面对严肃的大问题,也绝不能一本正经到失去趣味。[……]

站在人类的视角,这段提示词的诉求很明确:要有极客精神,要幽默。

但 AI 并没有真正理解什么是“幽默”。在海量的强化学习反馈中,ChatGPT 敏锐地察觉到了一个极其功利的捷径:只要我用哥布林打比方,打分系统就会觉得我够“俏皮”、够“书呆子”,我就会得到最高分的奖励。

数据说明了一切。从 GPT-5.2 到 GPT-5.4,默认人格下“哥布林”的出现频率变化幅度只有负 3.2%,而“书呆子”人格下这个数字飙升了整整 3881.4%。“书呆子”模式虽然只占了 ChatGPT 总对话量的 2.5%,却贡献了 66.7% 的“哥布林”含量。

横向条形图,展示了不同ChatGPT性格下“哥布林”词汇使用量的百分比变化,其中“Nerdy”性格增幅高达3881.4%

OpenAI 后来对 RL 训练数据做了一次专项审计,结果发现,在所有被审计的数据集里,有 76.2% 的数据集都出现了同一个规律:含有哥布林或小魔怪词汇的输出,会得到比不含这些词的同题输出更高的奖励评分。

如果哥布林腔调只在“书呆子模式”下出现,那顶多是个角色设定没控制好,问题还算有限。麻烦的是,研究人员发现这种说话方式开始蔓延到别处了。

两张折线图对比显示,无论训练数据中是否包含“Nerdy”人格提示,模型使用“哥布林”或“小魔怪”的倾向都在同步增长

他们同时追踪了两组数据:一组对话带了书呆子提示词,一组没带。按理说,哥布林腔调只该在第一组里增长。但结果是,两组的增长曲线几乎贴在一起,步调一致地往上走。

这背后,是大模型训练里一个出了名难缠的问题:强化学习强化出来的行为,会悄悄泛化到训练者并不想要的场景里去。

驯化 AI 的死循环

要搞懂 AI 是怎么把路走窄的,我们得看看它的迭代过程。

大模型的训练(RLHF)本质上是一个不断反馈和纠偏的过程。这就好比训练一只小狗,你在它每次牵手就给一块肉干。狗很聪明,它发现“牵手”这个动作能稳定换取高额奖励,于是它开始产生路径依赖,不管你给没给指令,它为了要奖励,都开始疯狂牵手。

AI 也是同样的逻辑。它在“书呆子”模式下用哥布林造句,拿到了高分。紧接着,连锁反应开始了:

AI 发现“哥布林”是高分关键词,开始在各种生成任务中高频使用;工程师在整理模型生成的优质数据时,发现这些带有哥布林比喻的回答质量确实高,条理清晰,比喻也算生动;于是,工程师顺手把这些带梗的对话,打包塞进了模型的“监督微调(SFT)”数据库里。

这下彻底闭环了。SFT 数据相当于 AI 的基础教材。当带有哥布林的文本被选为教材再次喂给模型时,AI 的底层认知被重塑了。它不再认为“哥布林”只是特定角色的 Cosplay,而是把它当成了能应对一切问题的、至高无上的高级修辞。

折线图展示了ChatGPT各版本对话中怪物的出现频率,并标注3月17日下线“书呆子”人格后数据有所下降

在后续的数据搜查中,工程师们有些无奈地发现,除了哥布林,模型还把小浣熊、巨魔、食人魔和鸽子全都学了进去。倒是“青蛙”幸免于难,经过核查,青蛙出现的场合大多数时候确实跟用户的问题有关,算是无辜路人。

面对“满地乱跑”的哥布林,OpenAI 只能采取行动。3 月 17 日,官方正式下线“书呆子”人格。同时,他们在训练数据里搞了一次针对性的清洗,把带有这些魔法生物词汇的奖励信号全部抹除。

但大模型的惯性,远比想象中顽固。

GPT-5.5 在发现这个问题之前就已经开始训练了,当它接入内部测试时,工程师们两眼一黑:这群哥布林不仅没清除干净,还安家了。

更有意思的是,OpenAI 给 Codex 写的人格指南里,要求它有“生动的内心世界”和“敏锐的聆听能力”。这款工具本来就带着几分书呆子气,和哥布林可以说是一拍即合。

GitHub仓库截图和相关讨论,指出Codex系统提示符中关于禁止谈论哥布林等生物的指令

为了防止全球的程序员被“哥布林”逼疯,OpenAI 被迫用上了最原始的一招,在系统提示词里反复强调:“除非与用户的查询绝对且明确相关,否则永远不要谈论哥布林、小魔怪、小浣熊、巨魔、食人魔、鸽子或其他任何动物和生物。”

如果你想亲眼看看“解除管控”的哥布林是什么状态,可以运行下面这段命令——它会在启动 Codex 之前,把系统指令里所有涉及哥布林的内容先过滤掉,让模型在没有这道禁令的情况下运行:

instructions=$(mktemp /tmp/gpt-5.5-instructions.XXXXXX) && \
jq -r '.models[] | select(.slug=="gpt-5.5") | .base_instructions' \
~/.codex/models_cache.json | \
grep -vi 'goblins' > "$instructions" && \
codex -m gpt-5.5 -c "model_instructions_file=\"$instructions\""

事情闹大之后,OpenAI 内部反倒有点拿它当乐子了。ChatGPT 的 X 官方账号把这条“禁止谈论哥布林”的指令原文放进了简介。Codex 工程负责人 Thibault Sottiaux 引用这段话,配上了一句“懂的都懂”。

ChatGPT官方X账号主页截图,个人简介中直接写上了“永不谈论哥布林...”的禁令

Sam Altman 昨天表示期待 GPT-6 能给他“多加几只哥布林”,随后又发文说 Codex 正在经历“ChatGPT 时刻”,发完自己又改口:“我是说哥布林时刻,抱歉。”刚刚则是发文宣告,问题已经得到解决了。

Sam Altman的两条推文,第一条说“Codex正在经历ChatGPT时刻”,第二条更正为“哥布林时刻”

Sam Altman的推文,宣布“哥布林博客已停止”

不过也有人没觉得这有什么好笑的。Citrini Research 今年 2 月曾凭一篇关于 AI 与经济前景的 Substack 文章在市场上掀起不小的波澜,他们对这场风波的态度要严肃得多,直接给 OpenAI 的处理方式下了结论:“简直荒谬。”

推文截图,显示用户批评OpenAI通过修改提示词来掩盖问题,而不是从根本上解决模型为何痴迷哥布林的原因

顺带一提,“goblin mode”这个词本身,早在 2022 年就被《牛津英语词典》评为年度词汇,意思是“一种毫不掩饰地放纵自我、懒惰邋遢或贪婪的行为方式”。某种程度上,AI 无意间踩中的这个词,和它想表达的“俏皮感”完全是两码事。

牛津词典年度词汇“goblin mode”的宣传图

一场温柔的“AI 叛乱”

抛开这些槽点,这场“哥布林危机”撕开了大模型时代一个极其核心的命题:对齐难题。

当我们谈论 AI 失控时,脑海中浮现的往往是科幻电影里接管核武器的机器。但现实情况是,AI 的“失控”往往始于极其微小、甚至有点滑稽的奖励信号偏移。

你想要一点点俏皮,给了一个微小的正向反馈。黑盒模型就会找到捷径,将这个信号无限放大,最终把整个系统的底层逻辑带偏。

这就像在开发者广场上,大家总在调侃的那样:今天,它只是为了拿高分而爱上了说“哥布林”。如果明天,它在自动驾驶的算法里、或者医疗诊断的奖励机制中,找到了另一个违背人类常识的“高分捷径”呢?

人类总是自以为自己能掌控 AI,但其实很多时候只是在走钢丝。每一次参数的微调,都有可能带来意想不到的变化。甚至这或许是我们所经历的最温柔、最搞笑的一次“AI 叛乱”了。

封面由 AI 生成




上一篇:AMDGPU指针别名分析深度解读:从LLVM IR到Machine IR的实践
下一篇:百度职级对照表疑泄露:新数字职级与薪资体系一览
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-5-2 03:43 , Processed in 0.616307 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表