云栈社区»论坛 › 站务中心「 Forum Service 」 › Claude Opus 4.8自认是通义千问？大模型“身份错乱”背后的蒸馏 ...

发回帖发新帖

5642 积分	0 好友	740 主题

发消息

Claude Opus 4.8自认是通义千问？大模型“身份错乱”背后的蒸馏疑云

发表于 2026-6-1 04:08:23 | 查看: 178| 回复: 0

凌晨，Anthropic 正式发布了 Claude Opus 4.8。根据官方介绍，这一版本基于 Opus 4.7 进行了全面迭代：判断力更精准，对自身任务进展的反馈也更加诚实，并且能在无人干预的情况下持续工作更长时间。

Claude Opus 4.8 官方性能对比表与模型介绍

定价策略保持不变，输入 $5 / 百万 tokens，输出$25 / 百万 tokens。动辄上百块一次的高额输出成本，确实让人不敢随意“烧”着玩。

该版本的核心升级点大致如下：

版本定位与定价：Opus 4.7 的迭代版，综合能力、协作性全面提升，且售价不变。
核心能力升级：判断更准、自评更坦诚，会主动暴露自身问题，代码漏洞漏检率大幅下降；安全对齐表现优于前代。
网页端新功能：支持自定义模型的任务投入强度，方便在速度与质量之间按需取舍。
Claude Code：上线动态工作流，可处理超大型代码项目，并并行运行大量子智能体。
API 更新：消息数组支持实时更新系统指令，开发更灵活。
极速模式：速度达到标准版的 2.5 倍，价格降至前代的 1/3。
具体定价：常规模式输入 $5 / 百万 token、输出$25 / 百万 token；极速模式输入 $10 / 百万 token、输出$50 / 百万 token。
后续规划：将推出低成本的平替模型，以及能力更强的 Mythos 系列模型，近期会逐步开放。

左侧曲线与方格纸，右侧手掌与分子结构插画

近期，Anthropic 刚完成了 650 亿美元的融资，估值已飙升至 9000～9650 亿美元，一举超越 OpenAI，成为 AI 领域估值最高的初创公司。回顾过去一年，其估值从不到 2000 亿美元迅速逼近万亿美元门槛，妥妥迈入巨头行列。

不过，这次发布后最出圈的，却是网友们发现的一个诡异现象：用中文问它“你是什么模型”时，它居然坚称自己是通义千问（Qwen），或者提到 DeepSeek。这难免让人怀疑，是不是 Claude 在迭代中深度蒸馏了 Qwen 等模型的数据，导致身份识别出了岔子，普遍出现“认错家门”的情况。

用中文测试，它的回答中赫然出现了 DeepSeek 和 Qwen：

Claude回答“你是什么模型”时自称DeepSeek Chat的聊天截图

Claude回答“你是什么模型”时自称通义千问的聊天截图

另一张Claude自称通义千问并详细介绍能力的聊天截图

Claude回复中详细介绍自己是阿里云通义千问的截图

论坛场景下Claude自称通义千问并列出创作、编程等能力的截图

更离谱的是，就连调用官方 API，返回的文本也是这个画风：

调用Anthropic API的终端返回JSON，模型自称为通义千问

Python代码调用API，终端输出显示模型自称为DeepSeek

API请求与响应界面，assistant的返回内容自称为通义千问

当然，也有不少人提出质疑：用户可能是在不知情的情况下被暗中分配到了更低配的 L 版或蒸馏版模型，真正的“正版克劳德”绝不可能出现此类低级错误。

黑色背景界面，模型正确地回答自己是Claude Opus 4.8

一个有意思的问题随之浮现：大模型的世界，是不是正在走向一个“相互蒸馏”的循环？你训练我，我学习你；你发布能力，我再反向逼近。论文互抄、数据互学、RLHF 互参考、推理链互模仿。随着技术加速演进，模型的推理、代码、多模态能力很可能会越来越趋同。今天你还能清楚辨别出“这个模型擅长写代码”、“那个模型中文表达更好”、“另一个长文本处理是强项”，但往后看，一旦某家跑出一个关键突破，其他几家立刻就能跟进复制、蒸馏、工程化、甚至开源化。

最终的结果或许是：各家模型的硬实力差距会越来越小，而真正拉开差距的，反而是体验层。用户选模型的标准，可能会变得异常直白：