找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

3950

积分

0

好友

510

主题
发表于 昨天 22:53 | 查看: 4| 回复: 0

今天看到一位叫“青龙圣者”的博主对 GLM5.2 成功背后的解密。大意是:

GLM5.2 的成功并非来自蒸馏。Anthropic 点名指责了 DeepSeek、Kimi、MiniMax 蒸馏其模型,最近还点名了千问——仅在 4-6 月期间,就用 2.5 万个账户与 Claude 交互了 2880 万次,并将交互数据用于训练。

Anthropic 虽然从来没有点名过智谱,但该博主认为 GLM5.2 用起来特别像 Claude Opus 4.6,而且那种像不是背答案式的机械模仿(蒸馏),而是在行为模式上趋近 Claude。比如 Claude 在一些边缘场景中,会显得很保守,GLM5.2 也会显得很保守。

怎么说呢?蒸馏出来的相似,是说出来的话相似。而智谱这种相似,不仅是说出来的话跟 Claude 相似,就连讲话时的“微表情”、“语调”都很神似。

紧接着,该博主指出,智谱成功的秘诀不是蒸馏,而是直接搞到了 Claude 中转站里的真实用户数据。

Claude 原则上不对中国用户开放,但大量中国程序员仍然通过中转站这类灰色通道使用 Claude 编程,几乎所有大厂程序员都在用。而且价格特别便宜,只有官方定价的 2-3 折。

费这么大劲去找中转站用 Claude 的,肯定是中国最顶尖的程序员们。这样一来,中转站就积累了大量顶尖程序员的真实使用数据,而且不会出现像豆包那种低质量的对话语料(比如问天气、闲聊)。

该博主认为,智谱搞到了中转站里这些高质量、高纯度的编程数据,然后拿去训练自己的模型。

注意⚠️:这都是该博主的猜测,没有提供任何证据。

随后,我去问了国内大模型圈的同学。反馈是:智谱肯定也做了蒸馏,至于是否使用了中转站的数据,去年确实也听说过。

不过也有同学反驳说,阿里的百炼平台不就是一个“合法中转站”吗?上面有大量调用智谱等模型的真实数据,那千问岂不是最厉害?

我觉得不能这样看。千问去学智谱,提升空间不大;关键是要对标 Claude 去学习,才更有意义。

以下是我对智谱为什么能做出 SOTA 成果的见闻整理:

  1. 早期(2024 年初,刚推出 GLM4 那会儿)智谱对外交流时,预训练负责人顾晓韬认为,智谱的优势在于进入赛道非常早——ChatGPT 火之前就开始做了,而且拥有大量本地部署的合作案例。
    我觉得这个说法略官方。盘古大模型也做得早啊,余承东不也说过,国内还不知道大模型为何物时,盘古就出现了么。再者,真实的合作案例,千问也不少。

  2. 部分卖方分析师认为,智谱研发团队的学术背景更强,连实习生都是清华的,并暗示 MiniMax 团队以商汤员工为主,偏商业应用,而非学术底蕴。
    这个说法同样非常官方。千问、豆包、混元的研究员学术背景也同样很能打,清华北大一大把,还有具备海外名校和海外大模型从业经验的人才(比如姚顺雨)。所以,单靠“人才论”去解释,也不太站得住脚。

  3. 部分大模型圈内人士认为,蒸馏本身也是一门技术活,智谱有自己独特的“配方”。
    这就比较玄学了,我也不是很懂。

  4. 就是那位青龙博主的观点——智谱拿了中转站的真实数据去训练。
    在国内,圈子里不存在秘密。如果智谱真这么搞了,我觉得 MiniMax、DeepSeek 肯定也知道。但为什么不照着学呢?我觉得还是方向选择不同。
    MiniMax IR 上周交流时暗示,MiniMax 也知道怎么去增强编程能力,但我们的方向是 Agent

    6 月 26 日,The Information 报道,DeepSeek 老板梁文峰在路演时对投资人表示,coding 跟 chatbot 一样,仅仅是 AI 发展进程中的阶段性产品。如果 DeepSeek 将大量资源投入到这种短期产品上,就会偏离 AGI(通用人工智能)的终极目标。

    我认为梁文峰说得非常有道理。经过两年的追赶,国内大模型都已经具备 chatbot 的能力,而且中美大模型在绝大部分 chatbot 场景上已经拉不开明显差距了。那再过两年,国模是否也都能具备 Opus 4.6 或者 Fable 5 的水准呢?如果是的话,coding 能力也会像 chatbot 一样摸到天花板。一旦失去明显差距,就会走向 commodity 化(大宗商品化),那可真就是一桩非常苦的生意了。

    ChatGPT 还没能实现盈利,市占率就开始下降了。PC 端(similarweb 数据)市占率从一年前的 70% 多掉到 50% 多,APP 端(Sensor Tower 数据)市占率更是从 3 年前的 90% 跌到了现在的 46%。Coding 偏向 B 端,对性能和价格更为看重,比 C 端 chatbot 的用户粘性还低。如果 coding 能力同样摸到天花板,目前落后的模型陆续追赶上来,那会不会重演 chatbot 的历史?如果会,大模型最终的结局可能就是走向 commodity 化。真到那个时候,下游应用和 CSP 的好日子可能就要来了。

    大笑到流泪的表情




上一篇:从“零散接单”到七位数ARR:一个独立开发者的订阅制出海生意复盘
下一篇:PowerTop开源小工具测评:在MacBook菜单栏沉浸式监控功耗与电池健康
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-29 00:50 , Processed in 0.771006 second(s), 39 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表