云栈社区»论坛 › 站务中心「 Forum Service 」 › Claude Fable 5实测：安全护栏过严致性能断崖下跌，开发者付着顶 ...

发回帖发新帖

4279 积分	0 好友	559 主题

发消息

Claude Fable 5实测：安全护栏过严致性能断崖下跌，开发者付着顶配的钱却只能用 Opus 4.8

发表于 5 小时前 | 查看: 6| 回复: 0

别高兴得太早！

你眼前的 Fable 5，大概率只是一具空壳。

当它带着万众期待宣告回归，现实却极其惨烈。

一张科技风格宣传图，左侧为柱状图标题“Fable 5: Before vs After”，显示BridgeBench基准测试中July 1版本与后续版本的对比数据，包含Debugging（前86.2，后25.9）、Refactoring（前73.6，后38.4）、Hallucination（前75.9，后61.7）三组数据；右侧为一个铁笼，内有蓝色发光脑部网络图案，上方文字“Claude Fable 5”，铁笼前盖有红色印章“静默回退”。

就在模型恢复上线的第一时间，BridgeMind 火速重跑了 BridgeBench 基准测试。

结果不仅是翻车，而是彻头彻尾的崩盘——

调试能力从 86.2 直线坠落至 25.9，狂跌百分之七十。
重构能力从 73.6 暴跌至 38.4，直接腰斩。
连最基础的幻觉指标，也从 75.9 狼狈滑落到 61.7。

一夜之间，开发者社区彻底炸锅。

「Fable 5 被物理阉割」的怒骂声，震耳欲聋。

一张社交媒体推文截图，用户BridgeMind指出Claude Fable 5模型在BridgeBench测试中性能下降，调试、重构、幻觉三项指标大幅下滑，并指出因新防护机制触发导致回退至Opus 4.8版本。

深色背景的AI模型性能评测页面，展示了Claude Fable 5 July 1st版本在Hallucination、Debugging、Refactoring三个模块中的排名与分数，分别为61.7、25.9、38.4，均大幅低于原版。

花着 Fable 的钱，跑的却是 Opus

开发者 kaize 满怀期待，把个人项目交给 Fable 5 去做安全审计。

结果，迎面撞上的却是一堵冰冷的墙：违反规则，拒绝执行。

一张社交媒体推文截图，用户kaize吐槽Fable 5已今非昔比，其个人项目被以违反规定为由拒绝审核。

有人只是做个普通的教育工具，就莫名其妙触发了安全标记，直接被系统一脚踢出 Fable。

还有人发现，只要你的项目敢沾一点 AuthN 或 AuthZ 认证模块，几乎百分之百会触发护栏。

绝望的网友甚至建议，Fable 5 干脆改名叫 Feeble 5（虚弱 5）算了。

一张社交媒体推文截图，用户将Claude Fable 5戏称为Claude Feeble 5，表达讽刺。

把数据拆开后，BridgeMind 发现，测试的 12 道题里，只有可怜的 3 道真正跑在了 Fable 5 上。

剩下 9 道全被安全分类器半路拦截，悄无声息地上演了一出狸猫换太子，强行切成了上一代的 Opus 4.8。

按照 BridgeBench 的计分规则，凡是被护栏强制降级的题目，直接记零分。

那 9 道题，就这么硬生生吃了鸭蛋。

一张社交媒体推文截图，用户@Hesamation评论认为Fable 5的问题在于Anthropic设置的严格防护栏。

对此，BridgeMind 的分析是：「只要任务能跑通，Fable 5 和 6 月 12 日被禁前那个版本一模一样强。问题出在护栏上。」

换句话说，模型没有变蠢，只是在绝大部分时间里，你根本就没在用它。

Anthropic：就是故意的

如果只是护栏太严，调松一点就完了。

但令人绝望的是，这不是 bug，是 Anthropic 深思熟虑、甚至引以为傲的顶层设计。

黑色背景上水平排列的两组柱状图对比，左侧为“Normal safeguards”，右侧为“Fable 5 safeguards”，前者有一条垂直分类边界将“Benign”区分为允许和屏蔽两部分；后者分类边界左移，在更大的“Safety margin”后屏蔽所有内容。

官方博文上白纸黑字写得清清楚楚：「我们刻意将安全分类器设置为，会对一组我们知道大概率无害的请求触发拦截。」

中英文对照文本图片，英文部分高亮显示官方刻意将安全分类器设置为对已知可能无害的请求触发的表述。

意思就是，他们明知道你的请求大概率没问题，却还是选择把大门死死焊上。

更让人后怕的是审查范围。

触发降级的检查，不会只盯着你刚发的那句话，而是模型能够读取的全部内容——

你的历史对话记忆
你接入的各种连接器
网络搜索的返回结果
甚至是你上传的每一份文件

你可能啥敏感词都没碰，但因为几天前上传了某份文件，Fable 5 就被强制切成了 Opus 4.8。

中英文对照文本图片，英文部分高亮说明检查会审查模型读取的所有内容，包括记忆、连接器内容、网络搜索结果和文件。

这个自动降级在 Claude、Claude Code、Claude Cowork 和 Microsoft 365 里全部默认开启。

你不主动关，它就替你做主。

一张信息图，说明什么会触发降级，列出四类高风险触发区及安全检查范围。

事已至此，开发者的怒火已经被彻底点燃。

网友 alexenpr 在 X 上大吐苦水：

以前丢给 Fable 5 同样的任务，它会静静思考二十多分钟，给出一套极其深思熟虑的方案。

现在呢？它吐答案比 Opus 还快，但质量却惨不忍睹。

一个 Bug 修了一个多小时，依然满屏报错。切回老旧的 Opus，反而瞬间修好了。简直是个天大的笑话。

开发者 MaxLumnar 则发现，模型 token 的消耗量非常夸张。5 小时的 Max x5 额度短短 15 分钟就被系统彻底烧光。更绝望的是，似乎连 Opus 也跟着一起变蠢了。

媒体 thehypedotnews 做了一组实测。他们让 Fable 5 通过 API 生成五个 HTML 动画。结果，2 个渲染错误，3 个质量拉胯。白白花了 7 分 25 秒和 6.48 美元，最后没有一个能用的。

一张社交媒体推文截图，thehype.账号分享了对回归后fable 5的测试，5个HTML动画创意中2个渲染错误、3个质量低下，花费6.48美元无可用结果。

篡改 prompt、全球拉闸、误杀成灾

让我们把时间拨回这场闹剧的开端。

6 月 9 日，共享同一个大脑的 Fable 5 和 Mythos 5 同时亮相。

仅仅两天后，社区骇然发现，Fable 5 的体内竟暗藏着一个反蒸馏护栏。没有通知，没有提示，直接在底层暗中篡改你的 prompt，逼迫模型悄无声息地吐出有缺陷的劣质代码。SemiAnalysis 一针见血地评价：「如果你是竞争对手，Claude Fable 5 被允许蓄意破坏你的应用。」Anthropic 当天道歉，承诺改成可见的回退机制。

6 月 12 日，Amazon 安全团队递交越狱报告，声称 Fable 5 能识别软件漏洞并产出利用代码。商务部长 Howard Lutnick 震怒，直接发函下达全球禁令。连 Anthropic 自家非美籍员工都不能碰。

一张时间线信息图，梳理了Fable 5从6月9日发布到7月1日回归的19天风暴时间线。

但最荒诞的黑色幽默来了。

Anthropic 在回归博文里表示，他们把市面上的模型全测了一遍，Opus 4.8 能做到，GPT-5.5 能做到，连自家最廉价的 Haiku 4.5 都能复现这个漏洞。按他们的话说，Fable 5 压根没有变得更危险。它只是在美国政府眼皮子底下暴露了护栏失灵。

但对 Anthropic 来讲，丢了面子、惹怒了监管，比模型到底有多危险要致命得多。

熬过漫长的 19 天。终于刑满释放的 Fable 5，在 7 月 1 日带着「全新的护栏」重返舞台。商务部下属的 AI 标准与创新中心做完验收，给出四个字的评价：异常强大。

Anthropic发布的关于重新部署Fable 5的官方公告截图。

确实强大，强大到 75% 的正常调试任务，都被扼杀在摇篮里。

最贵的模型，大部分时间不让你用

所以真相大概率是，Fable 5 并没有被「阉割」。

它的智商没掉，代码能力也未曾缩水。只要上场，就能和被禁之前一样强。

但问题就在这里，在绝大部分时间里，它压根就上不了场。

那道被官方「有意设宽」的护栏，像幽灵一样，盯着你的全部上下文。而你无法预判，它会在哪个瞬间把你一脚踢回 Opus 4.8。

你付着顶配的价钱，换来的，却是一个大部分时间都被死死锁在铁笼里的模型。

一张社交媒体推文截图，内容调侃也许从来就没有什么Fable 5或Mythos，等待下一个模型的时代正在终结。

Dario 说要保护世界，免受「危险 AI」之害。

可谁来保护开发者，免受 Anthropic 之害？

这个故事的走向，或许正应了云栈社区上的一句吐槽：当安全规则开始阻碍创造，工具本身就成了最大的障碍。

参考资料：

https://x.com/bridgemindai/status/2072662214704533888?s=20

https://x.com/Hesamation/status/2072692225100612032?s=20

上一篇：105k Star，Immich 3.0正式发布，自托管照片管理工具迎来重大更新
下一篇：Wildberries通知2026年涨佣，自发货卖家佣金或涨20%

Claude, Anthropic, 大模型评测, 安全护栏, 性能回退