凌晨,Anthropic 正式发布了 Claude Opus 4.8。根据官方介绍,这一版本基于 Opus 4.7 进行了全面迭代:判断力更精准,对自身任务进展的反馈也更加诚实,并且能在无人干预的情况下持续工作更长时间。

定价策略保持不变,输入 $5 / 百万 tokens,输出$25 / 百万 tokens。动辄上百块一次的高额输出成本,确实让人不敢随意“烧”着玩。
该版本的核心升级点大致如下:
- 版本定位与定价:Opus 4.7 的迭代版,综合能力、协作性全面提升,且售价不变。
- 核心能力升级:判断更准、自评更坦诚,会主动暴露自身问题,代码漏洞漏检率大幅下降;安全对齐表现优于前代。
- 网页端新功能:支持自定义模型的任务投入强度,方便在速度与质量之间按需取舍。
- Claude Code:上线动态工作流,可处理超大型代码项目,并并行运行大量子智能体。
- API 更新:消息数组支持实时更新系统指令,开发更灵活。
- 极速模式:速度达到标准版的 2.5 倍,价格降至前代的 1/3。
- 具体定价:常规模式 输入 $5 / 百万 token、输出$25 / 百万 token;极速模式 输入 $10 / 百万 token、输出$50 / 百万 token。
- 后续规划:将推出低成本的平替模型,以及能力更强的 Mythos 系列模型,近期会逐步开放。

近期,Anthropic 刚完成了 650 亿美元的融资,估值已飙升至 9000~9650 亿美元,一举超越 OpenAI,成为 AI 领域估值最高的初创公司。回顾过去一年,其估值从不到 2000 亿美元迅速逼近万亿美元门槛,妥妥迈入巨头行列。
不过,这次发布后最出圈的,却是网友们发现的一个诡异现象:用中文问它“你是什么模型”时,它居然坚称自己是通义千问(Qwen),或者提到 DeepSeek。这难免让人怀疑,是不是 Claude 在迭代中深度蒸馏了 Qwen 等模型的数据,导致身份识别出了岔子,普遍出现“认错家门”的情况。
用中文测试,它的回答中赫然出现了 DeepSeek 和 Qwen:





更离谱的是,就连调用官方 API,返回的文本也是这个画风:



当然,也有不少人提出质疑:用户可能是在不知情的情况下被暗中分配到了更低配的 L 版或蒸馏版模型,真正的“正版克劳德”绝不可能出现此类低级错误。

一个有意思的问题随之浮现:大模型的世界,是不是正在走向一个“相互蒸馏”的循环?你训练我,我学习你;你发布能力,我再反向逼近。论文互抄、数据互学、RLHF 互参考、推理链互模仿。随着技术加速演进,模型的推理、代码、多模态能力很可能会越来越趋同。今天你还能清楚辨别出“这个模型擅长写代码”、“那个模型中文表达更好”、“另一个长文本处理是强项”,但往后看,一旦某家跑出一个关键突破,其他几家立刻就能跟进复制、蒸馏、工程化、甚至开源化。
最终的结果或许是:各家模型的硬实力差距会越来越小,而真正拉开差距的,反而是体验层。用户选模型的标准,可能会变得异常直白:
- 谁更便宜?
- 谁不卡?
- 谁响应快?
- 谁最稳定?
- 谁的上下文窗口不“抽风”?
- 谁 API 不限流?
- 谁半夜不宕机?
- 谁真正把用户当“人”,而不是行走的 token 榨汁机?

照这个趋势发展下去,大家早晚会分不清谁是谁了吧。

大模型圈的终极谜题,可能就要变成这样一段对话了:
- 用户:你好,请问你是 Claude、Qwen、GPT,还是 Gemini?
- AI:都行。
- 用户:那你们区别到底是什么?
- AI:主要是 Logo 不太一样。

参考:https://www.anthropic.com/news/claude-opus-4-8
|