就在 Anthropic 筹备新模型发布的节骨眼上,一起泄密事件打了他们一个措手不及。
6月3日,传闻中因能力过强而被“囚禁”的 Mythos(内部代号 Oceanus),被曝即将公开发布。

通常,在新模型正式亮相前7天,AI公司会邀请红队人员进行测试,提前发现潜在的安全漏洞。
但让人大跌眼镜的是,开放权限仅仅几小时后,就有“内鬼”把来之不易的 API 访问通道打包,转手高价倒卖给了第三方 API 代理服务商。
发现异常流量后,Anthropic 管理层反应很快,立即全面叫停了红队测试,并停用了相关模型的访问权限。
然而,消息已经不胫而走。与此同时,Mythos 堪称“天价”的计费标准和超高的吞吐性能数据,已经在X平台上被传遍了。
根据各方消息推测,Mythos这头巨兽,大概率会在6月16日正式登场。


内鬼倒卖,红队的至暗时刻
这场“泄密风暴”到底是怎么发生的呢?
事情的开端,是有开发者发现 Anthropic 的 Claude 开发者后台(Console)里,突然出现了一个从未见过的神秘型号:claude-oceanus-v1-p。

根据多位硅谷知情人士和爆料博主的情报,这个带有 -p (Preview/Preview program) 后缀的模型,正是 Anthropic 正在秘密筹备的 Mythos正式版大模型 的核心检查点。
这本该是一次按计划推进的常规上线前红队测试。

可Anthropic怎么也没想到,自己高薪聘请的红队测试员队伍里,竟然混进了一位“商业奇才”。
这位内鬼在拿到 claude-oceanus-v1-p 的 API 访问权限后,第一时间不是去做漏洞挖掘,而是直接把访问通道打包,高价转售给了某国的 API 代理服务商。

很快,一些开发者就惊奇地发现,某个神秘渠道居然能跑出前所未见的 Claude 响应。
漏洞虽然被迅速堵上了,但代价可不小。
在检测到 API 的异常流量后,Anthropic 紧急暂停了整个项目的红队测试,并停用了模型权限。
有业内人士评论道:“通过外部代理转售这种事,很容易导致官方过度反应。估计下一批红队测试的规模会更小、限制更多、审查也更慢……但这真的能带来更好的安全效果吗?”

红队测试虽然被紧急叫停,但 Oceanus 一系列“降维打击”式的性能参数,已经暴露在了全世界的聚光灯下。

“吞吐52 Token/s + 80美元天价”,凭什么这么贵?
在这场风波中,最引人注目的,还是 Oceanus 流出的价格表和性能实测数据。

我们直接来看看被曝光的 Mythos/Oceanus 定价对比表:

最扎眼的就是,Oceanus 每百万输出 Token 的价格,竟然高达 80 美元!
这个价格几乎是目前市面上主流商业大模型价格的3倍以上。
在各家都疯狂卷低价的时候,Anthropic 却反其道而行之,掏出了一个“天价怪兽”。
甚至有圈内大V预测,未来若 OpenAI 和 Anthropic 正面比拼 10T 级别的终极研究模型,在最坏的情况下,OpenAI 的定价可能飙到 100 美元,而 Anthropic 甚至可能开出 150 美元/百万 Token 的宇宙级高价!


恐怕要等到2027年底,NVIDIA 的 Vera Rubin 架构显卡全面铺开后,这类 10T 级别模型的运行成本才可能回落到常规的 15 美元区间。
但,贵自然有贵的底气。
它的输出效果,确实让人眼前一亮:

仅仅用了 5 万 Token,Claude Mythos 就能复刻出一个 macOS 系统!

与高昂价格相匹配的,是 Oceanus 展示出的恐怖吞吐能力:实测速度高达每秒 52 个 Token!

在巨大参数量(可能高达十万亿)的前提下,还能维持 52 Token/s 的狂飙速度,这意味着 Anthropic 在底层推理架构和算力优化上,大概率实现了重大技术跨越。

Oceanus,是Mythos的完全体
为什么这个模型代号叫“Oceanus”?为什么说它曾被“囚禁”?
这得追溯到 Anthropic 内部一个名为“Project Glasswing”(玻璃翼计划)的绝密安全项目。
硅谷传闻,Oceanus 的前身(Mythos早期预览版)在内部测试时,展示出了可怕的零日漏洞挖掘能力。一旦泄露,可能会对全球互联网基础设施造成灾难性打击。
为此,它被无限期“囚禁”在隔离网络中,只允许极少数签署了严苛保密协议的合作伙伴接触。
而这次泄露的 claude-oceanus-v1-p,正是这头巨兽在经过多轮安全对齐之后,试图戴着镣铐走出实验室的“完全体升级版”。

泄露数据太反常,Oceanus背后三大硬核技术推演
52 Token/s 的超高吞吐,这个数据看起来实在是太反常了。Anthropic究竟是怎么做到的?
结合他们此前发布的关于强化学习(RL)的论文,我们在这里做了三大硬核技术推演。
Oceanus 能在后台狂飙 12 小时不崩溃,估计是在三处系统工程层面动了“大手术”。

推演一:System 2 慢思考落地(MCTS + PRM 架构)
传统的 Claude 或 GPT 采用的是“自回归”机制,也就是根据前一个 Token 去“盲猜”下一个 Token。这种模式下,AI 的思考是单向的直线,处理复杂 Agent 任务时,时长经常卡在几分钟这个量级。

可能性很大的是,Oceanus 彻底引入了类似 AlphaGo 的 MCTS(蒙特卡洛树搜索)算法与 PRM(进程奖励模型):
- MCTS(树状搜索):当面对一个复杂的软件工程任务时,模型不再直接输出代码,而是在后台生成成百上千条不同的“思维分支”。如果A方案跑了半小时发现是条死胡同,它会主动回溯,砍掉这个分支,换B方案继续跑。
- PRM(进程奖励模型):传统评估只看最终结果对不对(结果奖励模型,ORM),而PRM会对 AI 思考的每一步都进行打分。
这就是为什么它的输出价格能飙到 80 美元的原因——你在前端看到它吐出了 1 个 Token,它在后台可能已经悄悄生成了 100 个 Token,用于路径搜索和自我评估。
本质上,你是在为后台熊熊燃烧的“测试时计算”算力买单。

推演二:打破物理限制的动态 MoE 与线性注意力
按常理说,模型思考得越深、参数越大,响应速度就应该越慢。
但如果 Oceanus 的参数量真的达到了 10 万亿级,在如此庞大的身躯下,它是怎么砸出 52 Token/s 的惊人吞吐量的?

Anthropic 很可能祭出了两项大刀阔斧的改进:
- 动态拓扑的 MoE (混合专家模型) 架构:普通的 MoE 是固定激活 Top-2 专家,而 Oceanus 极有可能实现了动态路由。处理日常对话时,只激活 1% 的子专家网络,吞吐量直接拉满;只有进入复杂的代码重构任务时,才会逐级唤醒深层的“高智商专家核”。
- 线性注意力机制:在长达 12 小时的超长任务中,代码上下文会变得极长。标准 Transformer 架构 $O(N^2)$ 的显存占用会引发 KV Cache 瓶颈,导致显存爆炸或速度断崖式下跌。Oceanus 必须融合了 Linear Attention 或类似 Mamba/SSM 的混合架构,才能保证超长序列下的吞吐速度不发生衰减。

推演三:内置REPL 自主沙箱环境
资料中提到,Oceanus 能让 SWE-bench 这类软件工程评测在两年内达到饱和,这意味着它具备了全自主解决 GitHub 真实开源项目中复杂 Bug 的能力。
资深程序员都明白,写代码不能只靠盲猜。代码不管看着多完美,只要一编译运行,可能就因为一个第三方库的版本冲突直接挂掉。
因此,Oceanus 内部大概率集成了一套强大的 REPL(读取-求值-输出循环)自主沙箱环境。

它可能拥有一个完全隔离的虚拟机或容器空间,能够自主拉取代码库、安装依赖、运行单元测试。它的 Debug 过程是完全闭环的:写代码 -> 运行 -> 看报错日志 -> 自动重写,直到所有测试通过并自动提交 PR (Pull Request)。
这个猜测,与“玻璃翼计划”中透露出来的内容也是吻合的。

硅谷巅峰神仙打架:撞车GPT-5.6,Gemini迎来生死考
原本,Oceanus 的保密工作做得滴水不漏。
但随着这次内鬼事件,外界普遍推测 Anthropic 会加快步伐,该模型的全球首秀极有可能就定在 6 月 16 日左右。
这一下,整个硅谷的科技巨头都被逼到了墙角。
首当其冲的就是 OpenAI。有消息称,OpenAI 原本计划在秋季(9月/10月)才推出基于十万亿参数的 GPT-6 或传说中的 GPT-5.6。如今 Oceanus 的提前登场,无疑会迫使 OpenAI 考虑加快自己的节奏。
而压力最大的,莫过于谷歌刚刚发布不久的 Gemini 3.5 Pro。面对 Oceanus 每秒 52 个 Token 的速度、12 小时的超长任务续航,以及“降维打击”般的软件工程能力,谷歌如果再拿不出点硬货来,恐怕会在三巨头的“生死大考”中被彻底边缘化。
当AI 的连续自主工作时间从 4 分钟直接拉长到 12 小时,那些初级开发和运维人员的护城河,正在以肉眼可见的速度消失。
6月16日,巨兽或将出笼。由 Anthropic 掀起的这场技术海啸,可能很快就要来了。
参考资料:
https://x.com/testingcatalog/status/2062548860308730061?s=20
https://x.com/testingcatalog/status/2062548860308730061
https://x.com/birdabo/status/2062565097730707903