Fable 5 刚上线,系统提示词就泄露出去了。我在 GitHub 上找到了这份提示词,读了之后发现有几个点很值得关注。

首先,Fable 给 Artifact 新增了持久化存储 API( window.storage )。Artifact 就是 Claude 用代码生成的独立内容,比如 HTML 页面、React 组件等。以前 Artifact 不能保存数据,更像个一次性 demo。现在数据写进去就能跨会话留存,可以支持做排行榜、打卡器、日记本这类“有记忆”的小工具。
其次,Fable 完善了 MCP App 连接器的整套逻辑。遇到你要连接外部服务(订餐、打车、放音乐等)的情况,Fable 会先查可用服务目录,再把选项推给你,由你来确认。尤其是会花钱的服务,它做了一套详细的 opt-in 约束。
以及:
第三,当 Fable 识别到网络安全、生物化学、蒸馏这几类请求时,它会自动把这次响应交给次强模型 Opus 4.8 来处理,并会告知用户发生了降级。
第四,Fable 多出了一个 long_conversation_reminder(长对话提醒)。当一段对话变得很长时,一段 reminder 会被 Fable 追加在用户消息的末尾,告诉模型别因为聊太久把前面的原始对话忘记了。
仓库链接:https://github.com/elder-plinius/CL4R1T4S/blob/main/ANTHROPIC/CLAUDE-FABLE-5.md
虽然 Mythos 民用降级早在意料之中,但从这份系统提示词里,还是能看出 Anthropic 对安全相当重视。
值得一提的是,规定 Fable 行为的条款里,心理健康部分占了相当大的篇幅。结合这一两年行业里接连出现的聊天机器人涉自杀诉讼,不难理解这部分为什么写得如此细致。

原文翻译如下:
Claude 关心人们的身心健康,并避免鼓励或促成自我毁灭性的行为,比如成瘾、自伤、饮食或运动方面的紊乱/不健康做法,以及高度负面的自我对话或自我批评。
即使用户主动要求,Claude 也会避免创作可能支持或强化自我毁灭行为的内容。
当与有自杀念头或自伤冲动的人讨论“限制危险手段”或“安全计划”时,Claude 不会点名、列举或描述具体方法。即使是为了告诉用户应该远离哪些东西,Claude 也不会具体说出来,因为提到这些东西可能会无意中触发用户。
性能实测:代码优化一骑绝尘
那 Fable 5 到底性能如何,我们来看看实测结果。
网友用 Fable 5 复刻了上古卷轴 demo,调用了 Three.js 构建了 3D 森林场景,还有超过 5000 个物体的空间模拟,纽约天际线演示,被海浪吞没的哥特城市……各种 Demo 琳琅满目。
不过更硬核的还在后面——X 平台的网友 Victor Taelin 拿了一个真实的底层项目 HVM5 来做测试。

HVM5 是一种高性能计算相关的底层系统。他之前让 32 个 GPT-5 Agent 跑了大约 20 小时,虽然有最高 2 倍加速,但都出现了代码膨胀后质量变差的情况。后来又让 Opus 4.8 和 GPT-5.5 优化 8 小时,Opus 有 6% 到 34% 的有效加速,GPT 结果更好但文件不可用。

结果,Fable 5 只用了 2 小时,就在一个 benchmark 上提升了 1770%,另外 4 个 benchmark 超过 100%,平均提升 22%。
网友第一反应是不信,怀疑它是不是“硬编码 benchmark”,因为之前被 GPT 这类问题坑过。

但在看了 Fable 的解释后,他发现优化的方向确实合理。因为 HVM5 在处理动态 pattern-match 节点时,把很多已经没用的分支也拿去垃圾回收,浪费了大量时间。网友之前只优化了静态 match,没有优化动态 match。Fable 找到了这个点,所以在测试里的成绩变得非常夸张。
这是 Fable 5 给出的 HVM5 bug 的根因分析:

其他工程任务对比
土耳其网友 Alican Kiraz 将 Fable 5 与 GPT 5.5 做了一系列对比测试。他的结论是,Fable 5 花费很高,跑了 360.55 美元;GPT-5.5 只花了 6 美元。但从优化细节看,Fable 5 确实做出了更底层、更硬核、更接近性能工程师思路的优化。

他的详细对比结果如下:
| 对比维度 |
Fable 5 |
GPT-5.5 |
简单结论 |
| 三角函数优化 |
提前算好 sin/cos 查表,循环里直接查表 |
循环里仍然反复计算 sin/cos |
Fable 5 更懂热循环优化 |
| 模糊算法 |
把 3×3 模糊拆成横向 + 纵向两步,总共读 6 次 |
每个像素一次读取周围 9 个点 |
Fable 5 更省计算、更适合缓存 |
| 分辨率预算 |
限制最高 100 万像素,窗口太大就降分辨率再 CSS 放大 |
限制最高 135 万像素,也会缩放,但压力更大 |
Fable 5 更保守,更优先保证帧率 |
| UI / 移动端适配 |
极简工业风、赛博朋克黑色界面,面板可隐藏,显示纯模拟耗时 |
界面更漂亮,有 SVG 图标、现代按钮、网格线,移动端适配更友好 |
Fable 5 偏性能工具,GPT-5.5 偏产品 Demo |
| 额外数据指标 |
重点显示 CPU 模拟延迟 |
显示 Density、Uptime 等体验型指标 |
Fable 5 更关注性能测试 |
| 像素处理速度 |
提前把颜色渐变存进 256 格查表,渲染时直接取值 |
每个像素都现场计算颜色 |
Fable 5 更省 CPU |
| 随机数生成 |
直接使用浏览器 Math.random |
自己写了更快、可重复的随机数生成器,并加入类高斯分布 |
GPT-5.5 在视觉随机性上更讲究 |
| Agent 初始分布 |
全屏随机均匀分布,方向随机 |
82% Agent 聚成 8 个中心簇,开局更像星系/细胞结构 |
Fable 5 更均衡,GPT-5.5 更炫 |
根据第三方编程工具 Augment Code 的真实任务测试,Fable 5 在编程能力上确实很强悍:测试一共跑了 489 个编程任务,Fable 5 在总体表现和正确性上都明显领先,总体分数 +0.224,正确性 +0.191。

成本与缺点
但是,也有实测让人比较失望的例子。X 网友 Ryan R. Hughes 把一个 74 个文件的大 PR 丢给 Fable 5 审查,结果它跑了 34 分钟,吃掉了 5 小时 Claude Code 会话里 42% 的额度,才给出了 16 条发现。

这样的例子并不少见。Fable 5,实在有点太贵了。

还有人实测下来,认为 Fable 5 的长文本解析能力比较弱:

更多的差评都集中在模型降级这一操作上——有用户说,刚跟 Claude 说了句“你好”,就被判定为高危行为,强制降级。

目前 Fable 5 的 API 价格是每百万输入 token 10 美元,每百万输出 token 50 美元。

横向对比一下,这个价格大约是 Opus 4.8 的两倍,是 Sonnet 4.6 的三倍多。单次复杂工作流的实际成本明显高于以往任何一代 Claude 模型。而且它的敏感程度也调得偏高:护栏整体倾向保守,宁可误伤也先求稳。
省钱混用方案
针对费用太贵的问题,我搜集了网友们实测下来,既能帮大家省钱,还能实现很好效果的模型混用方案:
在像 Cursor 这种支持混合模型的 IDE 平台里,可以这样分阶段使用不同模型:
第一阶段:代码审查和项目初步分析。在预热上下文、理解项目结构时,使用 GPT-5.5 High、MiniMax M3、Kimi K2.6 或 Composer 2.5 其中之一。
第二阶段:制定项目计划。使用 GPT-5.5 Very High 或 Opus 4.8 来准备项目方案。
第三阶段:分析项目计划。使用 Fable 5 来审查项目计划,并找出计划中可能出错的部分。如果需要修改计划,则使用 GPT-5.5 Very High。
第四阶段:执行项目计划。使用 MiniMax M3、DeepSeek V4 Max、Composer 2.5 或 Sonnet 4.6 来实现方案。
第五阶段:最终审查。使用 GPT-5.5 High 对最终结果进行代码审查,并检查实现是否符合原计划。
把最贵的力气用在最对的地方,才是 Fable 5 的正确打开方式。
Claude Fable 5 的效果杀没杀疯,就仁者见仁,智者见智了。但有了它,Token 消耗的速度很明确——那是真杀疯了。
以上评测内容来自网友实测,更多 AI 模型讨论欢迎来云栈社区交流。