5 月 28 日,Anthropic 将 Claude Opus 4.8 推送至所有渠道。模型 ID 变更为 claude-opus-4-8,Claude API、AWS Bedrock、Google Vertex AI、Microsoft Foundry 同步上线,Pro / Max / Team / Enterprise 均可使用。
定价未作调整,仍为 $5 /$25 per million tokens。
最反常的是节奏——Opus 4.7 于 4 月 17 日发布,距 4.8 仅 41 天。回顾 Anthropic 旗舰系列此前的更新周期(3.5 到 4 历时近一年,4 到 4.6 半年,4.6 到 4.7 两个多月),41 天的速度在头部模型中没有先例。
这意味着 4.7 远未走完商业生命周期。Anthropic 在客户尚未完全熟悉 4.7 的情况下便提前推出 4.8,背后必有驱动力。先看升级本身带来了什么。
表层 benchmark:涨了,但不是看点
官方公布的几组横向对比数据都很亮眼:
| 维度 |
Opus 4.7 |
Opus 4.8 |
对照参考 |
| SWE-Bench Pro(agentic coding) |
64.3% |
69.2% |
GPT-5.5: 58.6% / Gemini 3.1 Pro: 54.2% |
| Humanity's Last Exam(含工具) |
54.7% |
57.9% |
— |
| OSWorld-Verified(电脑操作) |
82.8% |
83.4% |
— |
| Online-Mind2Web |
— |
84% |
大幅领先 GPT-5.5 |
| Knowledge work(综合) |
1753 |
1890 |
— |
SWE-Bench Pro 提升了近 5 个百分点,对这项公认很难刷的基准来说涨幅不小。但模型评测分数早已不能完全反映企业实际买单的逻辑——高分模型未必能稳定运行,而在真实工作流中,一个简单的幻觉问题就可能葬送一切。
Opus 4.8 真正值得关注的是另外三件事。
升级一:代码缺陷漏报率,被压到原来的 1/4
Anthropic 在系统卡中披露了一项极不寻常的数据:Opus 4.8 在“无批判地报告有缺陷结果”内部测试中获得 0 分,是首个达到此成绩的 Claude 模型。
通俗地讲:让模型自行编写代码,再让它自行审查,4.7 经常会放过自己写的 bug,而 4.8 将这种漏报率降到了原来的 1/4。
Bridgewater 的早期反馈也印证了这一点:4.8 与 4.7 最大的使用差异在于,它会“主动标记分析输入和输出中存在的问题”——会说出“这个数据我不确定”、“这个推导依赖一个我未验证的假设”。
这件事的意义比表面看来更重大。
过去一年,企业落地 Agent 的最大成本不在 token,而在审查。再聪明的 Agent,只要它有一定概率自信地输出错误内容,下游就必须配备审查环节。审查的成本——人员、时间、责任划分——远比 token 昂贵。
Opus 4.8 将诚实度做成了一项基准指标,这是一条少有人讨论但十分扎实的产品策略。它的策略方向是让模型更清楚自己哪里不懂——这比让模型显得更聪明难得多,但对将 Agent 放入生产线的企业而言,意义要大得多。
升级二:Dynamic Workflows,Claude 自己写编排代码跑 1000 个 subagent
第二件值得关注的是 Dynamic Workflows,目前在 Claude Code 中以 research preview 形式提供。
技术机制一言以蔽之:Claude 接到一个大型任务后,先写一段 JavaScript 编排脚本,由该脚本在后台调度多个 subagent 并行工作,跑完汇总再将结果交回。
具体有几条硬性上限:
- 同时最多 16 个 subagent 并发运行
- 单次任务总共最多 1000 个 subagent
- 编排脚本本身不能访问文件系统或 shell,只有 subagent 能执行系统命令
- 中间结果保存为脚本内的变量,不进入 Claude 自己的上下文窗口
最后一条是设计上最关键的取舍。过去用 Claude 执行多步任务时,所有中间产物都堆积在上下文中,超过几十轮便会触顶。Dynamic Workflows 把中间状态从模型记忆中剥离,移入了程序变量——这是从聊天范式向程序范式的一次正式跨越。
其运行流程值得拆解:分解任务 → 分发给多个 subagent 从不同角度攻坚 → 派对抗性 agent 来反驳前面 agent 的结论 → 反复迭代直到结果收敛。这套流程把多视角辩证做成了工程接口,而不只是单条链式推理。
效果案例很扎实:据公开演示,Bun 项目的 Zig 到 Rust 重写跑出了约 75 万行 Rust 代码,11 天从第一次 commit 跑到合并,通过了现有测试套件的 99.8%。
触发方式有三种:在 prompt 里说“workflow”、开启 ultracode 模式(自动叠加 xhigh 推理 + 编排)、或直接使用内置的 /deep-research。需要 Claude Code v2.1.154 以上,Max 和 Team 计划默认开放,Enterprise 需管理员启用。
升级三:Fast mode 2.5 倍快、3 倍便宜
第三件事是 Fast mode。
新的 Fast mode 定价为 $10 输入 /$50 输出 per million tokens(虽然单价比标准更高,但对应另一档速度和并发资源),实际速度比 4.7 的 Fast 快 2.5 倍,单位任务平均成本比之前降低 3 倍。
配套的还有一个 Effort 控制台——用户可在 claude.ai 和 Cowork 中手动选择模型回答时的用力程度。高 effort(xhigh / max)让模型花费更多 token 换取更好结果,特别推荐用于长跑型 Agent 任务;低 effort 让模型走捷径,减轻 rate limit 压力。Claude Code 默认走高 effort,但通过工程优化将 token 消耗压至与 4.7 类似的水平。
这两项合起来看是一个分层动作:将快而粗的档位与慢而准的档位做成两个独立 SKU,让客户在前端自行挑选,而不是由 Anthropic 替所有人做决定。
此外,Messages API 有一项不起眼但实用的升级:可以在 messages 数组中插入 system 指令,任务中途更新 Claude 的指令不会破坏提示缓存。对开发者而言,这意味着 long-running agent 可以边跑边改规则,无需付出重建缓存的代价。
一个判断框架:怎么看 AI 模型升级的真信号
每次新模型发布,技术媒体都会铺天盖地罗列 benchmark。但对于需要判断是否跟进、是否对自己有用的从业者来说,benchmark 是最弱的信号。
我从 Opus 4.8 这次发布中抽取出四个分辨维度,可以作为观察后续模型迭代的判断标尺:
信号一:看 benchmark 涨幅,还是看错误类型的变化
SWE-Bench 涨 5 个点属于性能升级;代码漏报率降低 4 倍属于行为方式的升级。前者影响 demo,后者影响是否敢放到生产线上。模型行为方式的升级比单纯能力分上涨重要得多,因为它改变的是企业的 ROI 公式,而不只是模型的天花板。
信号二:看单次能力,还是看持续运转能力
单轮回答更聪明属于消费级升级。但企业级 Agent 的瓶颈卡在持续多步任务——上下文不溢出、中间结果不丢失、并行任务能收敛。Dynamic Workflows 将中间状态搬出上下文窗口,这一步是工程范式的迁移,比聪明几分意义更大。
信号三:看模型本身,还是看周边产品的工程化
模型再强,没有调度接口,企业也用不动。Messages API 的中途插入系统指令、Effort 控制台、Fast mode 分档——这些都是把模型变成可调度服务的杠杆。模型周边接口的更新通常被技术博客忽视,但正是这些细节决定了 AI 能否进入真实工作流。
信号四:看定价高低,还是看价格结构
Opus 4.8 价格一分没涨,DeepSeek V4 Pro 的价格仍是它的 1/10。但 Anthropic 将价格按速度和精度切成两档,企业可以按任务挑选档位。价格结构的变化往往比绝对价格更能体现厂商对客户使用模式的理解深度。
把四个信号叠起来看 Opus 4.8 的这次升级,会发现它的内核并不在“模型变强 5%”这层叙述里。Anthropic 这次正在重新定义旗舰模型应当提供什么样的服务形态——这才是升级的内核。
41 天速更的背后逻辑
回到开头的问题:为什么这么快?
公开信息里有几条线索可以拼凑。
4.7 的市场反馈被 The Information 评价为“令人失望”——发布时被对标 Mythos 的预热抢了风头,benchmark 涨幅不够支撑旗舰预期。Anthropic 需要用 4.8 把市场情绪重新拉回 Claude 一侧。
同期,OpenAI 将 Codex 接入了 GPT-5.5,Google 让 Gemini Flash 在 agentic coding 上做了大幅升级。Agent 是这一波 AI 商业化最大的争夺战场,每家厂商都在抢夺被企业视为默认生产工具的那个位置。
资本面的故事也在叠加:Anthropic 5 月刚以 $9650 亿估值拿下$650 亿融资,估值已超过 OpenAI 的早期水平。这种估值水位下,叙事必须每月兑现一次。
最关键的一条线索是 Mythos。Anthropic 在公告里明确说,Mythos 已在与部分企业开展网络安全方向的合作,“未来几周”会向所有客户铺开。Mythos 并非 Opus 系列的下一代,它走的是另一条独立产品线——更高级、更贵、更强。
把这几条放在一起,Opus 4.8 的角色就清楚了:它是 Mythos 上市前的市场训练舱。让企业先在 Opus 上习惯 Dynamic Workflows 这套范式、习惯 effort 控制台、习惯模型会主动标记自己不确定的产出形态。等 Mythos 真正铺开时,企业的工作流早已为它准备就绪。
结尾观察
Opus 4.8 这次发布最有意思的地方,在于 Anthropic 摆出来的产品姿态——它已将证明自己的思路切换到另一方向:从模型分数转向模型如何被使用。这套姿态的转向,比这次 benchmark 的涨幅更值得长期跟踪。
41 天速更、定价不变、把诚实度做成 benchmark、把编排能力做成研究预览、把 Mythos 当成下一颗子弹蓄在膛内。这套打法对应的判断是:模型的能力上限已不再是决定竞争的主要变量,模型如何被装进企业工作流才是。
接下来值得观察的是 Mythos 真正铺开时的产品形态——它会不会把 Dynamic Workflows 和 Effort Control 这些在 4.8 上验证过的接口做得更激进。如果会,那么 Opus 4.8 这次的意义就不止于一次小版本号升级,更像是 Anthropic 整条产品线范式过渡的起点。
欢迎前往云栈社区交流更多技术洞见。