今天看到一位叫“青龙圣者”的博主对 GLM5.2 成功背后的解密。大意是:
GLM5.2 的成功并非来自蒸馏。Anthropic 点名指责了 DeepSeek、Kimi、MiniMax 蒸馏其模型,最近还点名了千问——仅在 4-6 月期间,就用 2.5 万个账户与 Claude 交互了 2880 万次,并将交互数据用于训练。
Anthropic 虽然从来没有点名过智谱,但该博主认为 GLM5.2 用起来特别像 Claude Opus 4.6,而且那种像不是背答案式的机械模仿(蒸馏),而是在行为模式上趋近 Claude。比如 Claude 在一些边缘场景中,会显得很保守,GLM5.2 也会显得很保守。
怎么说呢?蒸馏出来的相似,是说出来的话相似。而智谱这种相似,不仅是说出来的话跟 Claude 相似,就连讲话时的“微表情”、“语调”都很神似。
紧接着,该博主指出,智谱成功的秘诀不是蒸馏,而是直接搞到了 Claude 中转站里的真实用户数据。
Claude 原则上不对中国用户开放,但大量中国程序员仍然通过中转站这类灰色通道使用 Claude 编程,几乎所有大厂程序员都在用。而且价格特别便宜,只有官方定价的 2-3 折。
费这么大劲去找中转站用 Claude 的,肯定是中国最顶尖的程序员们。这样一来,中转站就积累了大量顶尖程序员的真实使用数据,而且不会出现像豆包那种低质量的对话语料(比如问天气、闲聊)。
该博主认为,智谱搞到了中转站里这些高质量、高纯度的编程数据,然后拿去训练自己的模型。
注意⚠️:这都是该博主的猜测,没有提供任何证据。
随后,我去问了国内大模型圈的同学。反馈是:智谱肯定也做了蒸馏,至于是否使用了中转站的数据,去年确实也听说过。
不过也有同学反驳说,阿里的百炼平台不就是一个“合法中转站”吗?上面有大量调用智谱等模型的真实数据,那千问岂不是最厉害?
我觉得不能这样看。千问去学智谱,提升空间不大;关键是要对标 Claude 去学习,才更有意义。
以下是我对智谱为什么能做出 SOTA 成果的见闻整理:
-
早期(2024 年初,刚推出 GLM4 那会儿)智谱对外交流时,预训练负责人顾晓韬认为,智谱的优势在于进入赛道非常早——ChatGPT 火之前就开始做了,而且拥有大量本地部署的合作案例。
我觉得这个说法略官方。盘古大模型也做得早啊,余承东不也说过,国内还不知道大模型为何物时,盘古就出现了么。再者,真实的合作案例,千问也不少。
-
部分卖方分析师认为,智谱研发团队的学术背景更强,连实习生都是清华的,并暗示 MiniMax 团队以商汤员工为主,偏商业应用,而非学术底蕴。
这个说法同样非常官方。千问、豆包、混元的研究员学术背景也同样很能打,清华北大一大把,还有具备海外名校和海外大模型从业经验的人才(比如姚顺雨)。所以,单靠“人才论”去解释,也不太站得住脚。
-
部分大模型圈内人士认为,蒸馏本身也是一门技术活,智谱有自己独特的“配方”。
这就比较玄学了,我也不是很懂。
-
就是那位青龙博主的观点——智谱拿了中转站的真实数据去训练。
在国内,圈子里不存在秘密。如果智谱真这么搞了,我觉得 MiniMax、DeepSeek 肯定也知道。但为什么不照着学呢?我觉得还是方向选择不同。
MiniMax IR 上周交流时暗示,MiniMax 也知道怎么去增强编程能力,但我们的方向是 Agent。
6 月 26 日,The Information 报道,DeepSeek 老板梁文峰在路演时对投资人表示,coding 跟 chatbot 一样,仅仅是 AI 发展进程中的阶段性产品。如果 DeepSeek 将大量资源投入到这种短期产品上,就会偏离 AGI(通用人工智能)的终极目标。
我认为梁文峰说得非常有道理。经过两年的追赶,国内大模型都已经具备 chatbot 的能力,而且中美大模型在绝大部分 chatbot 场景上已经拉不开明显差距了。那再过两年,国模是否也都能具备 Opus 4.6 或者 Fable 5 的水准呢?如果是的话,coding 能力也会像 chatbot 一样摸到天花板。一旦失去明显差距,就会走向 commodity 化(大宗商品化),那可真就是一桩非常苦的生意了。
ChatGPT 还没能实现盈利,市占率就开始下降了。PC 端(similarweb 数据)市占率从一年前的 70% 多掉到 50% 多,APP 端(Sensor Tower 数据)市占率更是从 3 年前的 90% 跌到了现在的 46%。Coding 偏向 B 端,对性能和价格更为看重,比 C 端 chatbot 的用户粘性还低。如果 coding 能力同样摸到天花板,目前落后的模型陆续追赶上来,那会不会重演 chatbot 的历史?如果会,大模型最终的结局可能就是走向 commodity 化。真到那个时候,下游应用和 CSP 的好日子可能就要来了。

|