3950 积分	0 好友	510 主题

发消息

智谱GLM5.2疑似使用灰色中转站数据训练及解读

发表于昨天 22:53 | 查看: 4| 回复: 0

今天看到一位叫“青龙圣者”的博主对 GLM5.2 成功背后的解密。大意是：

GLM5.2 的成功并非来自蒸馏。Anthropic 点名指责了 DeepSeek、Kimi、MiniMax 蒸馏其模型，最近还点名了千问——仅在 4-6 月期间，就用 2.5 万个账户与 Claude 交互了 2880 万次，并将交互数据用于训练。

Anthropic 虽然从来没有点名过智谱，但该博主认为 GLM5.2 用起来特别像 Claude Opus 4.6，而且那种像不是背答案式的机械模仿（蒸馏），而是在行为模式上趋近 Claude。比如 Claude 在一些边缘场景中，会显得很保守，GLM5.2 也会显得很保守。

怎么说呢？蒸馏出来的相似，是说出来的话相似。而智谱这种相似，不仅是说出来的话跟 Claude 相似，就连讲话时的“微表情”、“语调”都很神似。

紧接着，该博主指出，智谱成功的秘诀不是蒸馏，而是直接搞到了 Claude 中转站里的真实用户数据。

Claude 原则上不对中国用户开放，但大量中国程序员仍然通过中转站这类灰色通道使用 Claude 编程，几乎所有大厂程序员都在用。而且价格特别便宜，只有官方定价的 2-3 折。

费这么大劲去找中转站用 Claude 的，肯定是中国最顶尖的程序员们。这样一来，中转站就积累了大量顶尖程序员的真实使用数据，而且不会出现像豆包那种低质量的对话语料（比如问天气、闲聊）。

该博主认为，智谱搞到了中转站里这些高质量、高纯度的编程数据，然后拿去训练自己的模型。

注意⚠️：这都是该博主的猜测，没有提供任何证据。

随后，我去问了国内大模型圈的同学。反馈是：智谱肯定也做了蒸馏，至于是否使用了中转站的数据，去年确实也听说过。

不过也有同学反驳说，阿里的百炼平台不就是一个“合法中转站”吗？上面有大量调用智谱等模型的真实数据，那千问岂不是最厉害？

我觉得不能这样看。千问去学智谱，提升空间不大；关键是要对标 Claude 去学习，才更有意义。

以下是我对智谱为什么能做出 SOTA 成果的见闻整理：

早期（2024 年初，刚推出 GLM4 那会儿）智谱对外交流时，预训练负责人顾晓韬认为，智谱的优势在于进入赛道非常早——ChatGPT 火之前就开始做了，而且拥有大量本地部署的合作案例。
我觉得这个说法略官方。盘古大模型也做得早啊，余承东不也说过，国内还不知道大模型为何物时，盘古就出现了么。再者，真实的合作案例，千问也不少。
部分卖方分析师认为，智谱研发团队的学术背景更强，连实习生都是清华的，并暗示 MiniMax 团队以商汤员工为主，偏商业应用，而非学术底蕴。
这个说法同样非常官方。千问、豆包、混元的研究员学术背景也同样很能打，清华北大一大把，还有具备海外名校和海外大模型从业经验的人才（比如姚顺雨）。所以，单靠“人才论”去解释，也不太站得住脚。
部分大模型圈内人士认为，蒸馏本身也是一门技术活，智谱有自己独特的“配方”。
这就比较玄学了，我也不是很懂。
就是那位青龙博主的观点——智谱拿了中转站的真实数据去训练。
在国内，圈子里不存在秘密。如果智谱真这么搞了，我觉得 MiniMax、DeepSeek 肯定也知道。但为什么不照着学呢？我觉得还是方向选择不同。
MiniMax IR 上周交流时暗示，MiniMax 也知道怎么去增强编程能力，但我们的方向是 Agent。

6 月 26 日，The Information 报道，DeepSeek 老板梁文峰在路演时对投资人表示，coding 跟 chatbot 一样，仅仅是 AI 发展进程中的阶段性产品。如果 DeepSeek 将大量资源投入到这种短期产品上，就会偏离 AGI（通用人工智能）的终极目标。

我认为梁文峰说得非常有道理。经过两年的追赶，国内大模型都已经具备 chatbot 的能力，而且中美大模型在绝大部分 chatbot 场景上已经拉不开明显差距了。那再过两年，国模是否也都能具备 Opus 4.6 或者 Fable 5 的水准呢？如果是的话，coding 能力也会像 chatbot 一样摸到天花板。一旦失去明显差距，就会走向 commodity 化（大宗商品化），那可真就是一桩非常苦的生意了。

ChatGPT 还没能实现盈利，市占率就开始下降了。PC 端（similarweb 数据）市占率从一年前的 70% 多掉到 50% 多，APP 端（Sensor Tower 数据）市占率更是从 3 年前的 90% 跌到了现在的 46%。Coding 偏向 B 端，对性能和价格更为看重，比 C 端 chatbot 的用户粘性还低。如果 coding 能力同样摸到天花板，目前落后的模型陆续追赶上来，那会不会重演 chatbot 的历史？如果会，大模型最终的结局可能就是走向 commodity 化。真到那个时候，下游应用和 CSP 的好日子可能就要来了。

上一篇：从“零散接单”到七位数ARR：一个独立开发者的订阅制出海生意复盘
下一篇：PowerTop开源小工具测评：在MacBook菜单栏沉浸式监控功耗与电池健康

大模型, GLM, Claude, 数据训练, 人工智能

智谱GLM5.2疑似使用灰色中转站数据训练及解读

相关帖子