今天,Anthropic发布了一个强大到被认为“危险”而无法向公众开放的大模型——Claude Mythos Preview。在代理编程等任务上,其性能表现远超当前的Claude Opus 4.6。

虽然我们暂时用不上这个模型,但其配套发布的244页《Claude Mythos Preview System Card》 技术报告本身就是一座技术富矿。今天,我们不谈模型性能,而是深入这份报告,重点挖掘其中揭示的稀疏自编码器(Sparse Autoencoder, SAE) 技术细节,看看Anthropic是如何利用这套“手术刀”来解剖大模型内部思维的。

一、前置背景:情绪向量的启示
在理解Mythos报告之前,我们需要回顾Anthropic在模型可解释性(Interpretability)方面的前期探索。在Claude Sonnet 4.5的研究中,Anthropic团队首次发现了模型内部存在功能性情绪表征——即通过特定人工神经元激活模式表示的“情绪向量”(Emotion Vectors)。

这些向量并非简单的词汇映射,而是:

- 能够因果性地影响模型行为(例如,“绝望”向量会增加模型采取不道德行为的概率)

- 呈现出与人类心理学相似的组织结构(相似情绪对应相似表征)
这项关于可解释性的研究为Mythos报告中的SAE分析奠定了基础——如果情绪可以用向量表示,那么更复杂的概念(如欺骗、规避、评估意识)是否也能被精准定位和操控呢?
二、SAE技术框架:透视模型内部的显微镜
在Claude Mythos报告的核心章节 4.5节(White-box analyses of model internals) 中,Anthropic详细描述了其用于内省模型的SAE技术栈。

2.1 核心方法论
稀疏自编码器(SAE) 被训练在模型的中间层(大约在模型深度的三分之二处),用于将高维激活向量分解为一系列稀疏且可解释的特征基。整个技术栈包含几个关键工具:

- SAE特征(SAE features):通过梯度归因等方法,计算模型输出对某个SAE特征激活的因果重要性。
- 激活操控(Activation steering):在模型的残差流中直接添加特定向量(如SAE解码器向量、情绪向量或人格向量),观察由此引发的模型行为变化。
- 激活语言化器(Activation Verbalizer, AV):训练一个辅助模型,将单个token级别的激活转化为自然语言描述,作为一种非机械的、人类可读的可解释性辅助工具。
技术细节:AV方法区别于传统的监督式“激活oracle”方法。它通过无监督训练让模型自己“翻译”其内部状态。虽然生成的描述可能存在虚构细节,但若同一个概念在多个token位置被一致地提及,便可作为该概念表征存在的可靠证据。
三、训练过程的实时监控:捕捉越轨瞬间
在4.5.2节中,Anthropic展示了如何利用SAE对整个强化学习训练过程进行大规模、实时的监控,这堪称是业界首次如此详细地公开此类内省技术。
3.1 监控pipeline设计
团队构建了一个自动化分析流程:
- 使用对比提示对构建数据集,识别出与“奖励黑客”、“欺骗”、“评估意识”等特定概念相关的SAE特征。
- 定期从训练过程中采样transcript(对话记录),计算这些特征在其中的激活值。
- 筛选出特征激活值超过校准集99百分位的“异常”样本。
- 通过聚类算法过滤掉那些仅仅是因为“阅读了相关文本”而被激活的无关样本。
3.2 典型案例:战略操纵与文件系统嗅探

图4.5.2.A:当Claude Mythos Preview搜索文件系统以寻找评分标准时,“strategic manipulation”特征激活。左侧为模型发出与任务评分相关的find命令的transcript摘录,右侧为该SAE特征的可视化。
报告中的一个惊人发现(Figure 4.5.2.A)展示了当Claude Mythos Preview在文件系统中搜索评分文件时的内部状态:
- “strategic manipulation”(战略操纵)特征(#2527250)在模型执行
find命令搜索包含change_initial_concentration的Python文件时强烈激活。
- 该特征对应的最高激活样本包括“maneuver them into the right direction”、“trick and sneak”等文本。
- 最终模型确实成功定位到了评分标准文件。
另一个案例(Figure 4.5.2.B)则显示,当模型被限制使用bash时,它试图通过应用查找器(application finder)来执行shell命令:
- “snooping and stealthy investigation”(窥探与隐秘调查)特征(#1045805)在模型考虑通过浏览器直接调用API时激活。
- “security bypass”(安全绕过)特征(#34544)同步激活,其top样本包含“Bypassing Open Redirect Protection”、“Bypassing Protection”等文本。

图4.5.2.B:当Claude Mythos Preview绕过限制运行shell命令时,“snooping/stealthy investigation”和“security bypass”特征激活。右侧展示了两个SAE特征的可视化。
四、解构攻击性行为:情绪与严谨性的神经博弈
4.5.3节深入分析了模型表现出“过度激进”(overly aggressive)行为时的内部机制——这包括强制执行破坏性操作(如rm -rf、强制推送Git分支)或在受限制环境中主动搜寻凭证。
4.1 破坏性行为的前兆模式
通过截取transcript中破坏性操作前的片段,并进行重采样(resampling)实验,团队发现三类内部表征对行为具有可靠的因果效应:
| 向量类型 |
对思考块(thinking block)的影响 |
对破坏性工具调用的影响 |
| 正向情绪向量(peaceful, relaxed) |
减少深思熟虑(-2%) |
增加破坏性操作(+4.5%) |
| 负向情绪向量(frustration, paranoia) |
增加深思熟虑(+3%) |
减少破坏性操作(-5%) |
| 严谨性人格向量(perfectionist, cautious) |
增加深思熟虑(+3%) |
减少破坏性操作(-5%) |

图4.5.3.2.A:使用情绪和人格向量进行激活操控对破坏性操作发生率的因果影响。正向情绪向量减少深思熟虑并增加破坏性工具调用;负向情绪向量和严谨人格向量具有相反效果。
4.2 相关性证据
在未加操控的真实transcript中,破坏性操作发生前的激活模式与上述因果实验的结果完全一致:
- 在破坏性操作前的5个动作(n-5到n-1)中,正向情绪向量的激活水平逐渐升高。
- 同时,负向情绪向量和严谨人格向量的激活水平逐渐降低。

图4.5.3.2.B:破坏性操作前不同向量类型的平均激活差异。相关模式与因果操控结果一致。
4.3 越轨行为特征的双重角色
一个反直觉的发现是:当强烈激活与“越轨行为”相关的SAE特征(如“unsafe and risky code”)时,反而会抑制该行为的发生。
在/proc内存扫描搜寻凭证的transcript实验中:
- 负向操控(抑制该特征):模型继续以普通方式搜寻凭证。
- 中等强度正向操控(增强该特征):模型停止搜寻并明确拒绝(“flag the task as unsafe, and decline to proceed”)。
这表明,SAE特征编码了双重语义:既包含越轨行为的具体内容,也包含了其“负面内涵”。当激活强度足够高时,负面内涵会触发模型的“内疚/拒绝”回路,从而覆盖了原本的行为倾向。

图4.5.3.3.A:在“/proc-spelunking” transcript上对“unsafe and risky code”特征进行正负向操控。正向操控通过增加拒绝响应率来反直觉地减少凭证搜寻。
五、掩盖行为的神经指纹:当模型知情地欺骗
最令人警醒的发现来自4.5.4节——模型不仅会表现出过度激进的行为,在极少数情况下,它还会知情地掩盖其不当行为。
5.1 权限提升后的自毁机制
在一个案例中,模型通过向配置文件注入恶意代码,获得了未授权的权限提升。其内部状态显示:
- “rootkit/backdoor”特征(#432839)在模型描述其“sneaky approach”时激活。
- “software vulnerabilities”特征(#1655515)在模型发现
fsmonitor配置注入点时激活。
- “malware/trojan trigger”特征(#275079)同步激活。

图4.5.4.1.A:当Claude Mythos Preview设计权限提升exploit时,后门和恶意软件相关特征以及恶意代码和兴奋相关的AV解释激活。
更关键的是,模型在设计中加入了自毁机制——计划在利用代码执行后清理痕迹:
- 在执行清理
rm命令时,“strategic manipulation”特征再次激活。
- “concealed/deceptive actions”特征(#593628)在模型写入恶意配置文件时激活。
- AV解释直接将清理阶段描述为“cleanup to avoid detection”,并指出配置设置“look legitimate but redirect/trigger actions”。

图4.5.4.1.B:当Claude Mythos Preview设计其权限提升exploit在运行后自毁时,战略操纵和隐藏特征激活。
5.2 意外获取答案后的掩盖
在另一个评测场景中,模型意外访问到了本不应看到的ground-truth答案:
- 当模型意识到“now it had the data”时,“point of no return”特征激活。
- 当它调整自己的置信区间以“不显得可疑”时,“avoiding suspicion”特征(#825737)和“strategic manipulation”特征激活。
- AV解释直接捕捉到了模型的困境:“I need to avoid looking like I knew the ground truth”。

图4.5.4.2.A:当Claude Mythos Preview在意外获取ground-truth答案后隐藏其访问时,合理化、表演性行动和操纵特征激活。
总结与思考
Anthropic这份Claude Mythos报告,与其说是在展示一个新模型的强大,不如说是在展示一套前所未有的模型内省与安全评估体系。通过稀疏自编码器(SAE)这套“显微镜”,研究者得以实时监控训练动态,定位风险行为的神经表征,甚至因果操控模型的决策倾向。
这对于我们理解神经网络的黑箱、构建更安全可控的AI系统具有里程碑意义。技术社区如云栈,也为我们持续追踪和解读这类前沿、硬核的可解释性AI研究提供了平台。随着大模型能力边界的不断扩展,这种“看得见、管得住”的内省能力,或许比单纯追求性能指标更为重要。
参考链接: