云栈社区»论坛 › 站务中心「 Forum Service 」 › 国产大模型实战谈：蒸馏为何难防？闭源为何是必然出路？ ...

发回帖发新帖

4164 积分	0 好友	547 主题

发消息

国产大模型实战谈：蒸馏为何难防？闭源为何是必然出路？

发表于 1 小时前 | 查看: 2| 回复: 0

分享一篇来自国内大模型一线从业者的访谈，针对当前关于国内外大模型的诸多争议与困惑，给出了非常接地气的解答。

主持人：都说 Fable 5 特别强，你怎么看？

专家： 国产模型的参数规模普遍在 2 万亿以内，而 Fable 5 直接冲到了 10 万亿，并且依然采用 Dense（稠密）架构，能力大幅领先是必然的。（注：不少朋友认为 Anthropic 走的是 MoE 稀疏架构路线。但根据一些群友的观点，此前有 Anthropic 员工提过他们一直在深耕稠密路线，所以市场上存在两种猜测；另外，5 月份有文章对 GPT 5.4 和 Opus 4.7 的真实知识容量进行了测试，并在过程中反推，结论也倾向于 Dense 架构。）

主持人：国内模型或多或少都借鉴了海外先进模型，那 Fable 5 强化了反蒸馏能力，会不会阻碍我们后续的追赶？

捂脸表情符号，手持蓝色刀具的黄色卡通形象

专家： 海外模型一直在构筑反蒸馏的壁垒，但我们同样在蒸馏技术上不断寻求突破。这道防线是挡不住我们的，突破起来并不困难。

主持人：那中美模型之间的核心差距在哪里？我们能否迎头赶上？

专家： 核心就在数据和算力。

国产模型非常缺乏高质量数据，公开数据已经被挖掘了一大半，现在必须去寻找垂类数据、合成数据以及用户实际使用中产生的数据。但问题在于，目前国内模型大多是开源的，像智谱、DeepSeek 的模型会被企业拿去本地部署，数据并不会回流给模型厂商。这与海外形成鲜明对比，海外普遍采用闭源模式，所有数据都在服务器端，Anthropic 和 OpenAI 可以直接将其用于下一次的训练迭代。

其次是算力问题。眼下，国产模型的训练仍然重度依赖英伟达的卡。尽管 DeepSeek 已经完成了与昇腾 950PR 的适配，但那仅仅覆盖了推理侧，训练环节尚且不行。而且昇腾的 CANN 生态仍处于比较初级的阶段。所以，短期内训练依然离不开英伟达的卡，这就要求国内大模型厂商必须想方设法拿到足够的 A100、H100 甚至 B200 卡。为什么像智谱、DeepSeek 都不怎么碰多模态，比如视频模型？字节的即梦手里握着几十万张卡，而且视频模型只能用英伟达的卡来跑，其他初创公司哪有这个家底去做多模态？

所以，无论在数据质量还是算力储备上，海外模型的迭代和优化速度都更快。在如此不利的条件下，国内模型还能勉强咬住差距，实属不易。

主持人：国内模型现在都是开源，终端企业直接拿来本地化部署，像 WorkBuddy 这类的应用也是直接调用，基本不付费。这些模型厂商要么已上市，要么在准备上市，要怎么给股东交代呢？

专家： 开源不会是无止境的，预计到 2026 年年底，整个行业会逐步走向闭源。

主持人：那你怎么看待现在国产模型动辄几百亿美金的估值呢？毕竟各家的 ARR 也就几亿美金。

专家： 不能按这种逻辑看，得用终局思维。就是说，要去预判未来国内 Coding、Agent、订阅服务市场能长到多大，然后根据各家模型的能力，拍出各自能拿下的市场份额，算出一个未来的收入预期，最后再把这个数字贴现回现在。

主持人：如何评判国内模型的好坏？为什么每个人的体验都不一样，实际体感跟跑分榜的差距也很大？

专家： 我们从不看任何通用的 Benchmark 排行，而是用自己内部一套非公开的测试题来评估。因为每个人的使用体验是主观的，带着各自的侧重点，而跑分榜单是多维度、求平均的测试结果。所以人与人之间、人与榜单之间，出现巨大的口碑差异很正常。

主持人：您也看到了智谱的股价表现，在发布 GLM 5.2 之后直接就暴涨了，怎么看国内各家模型厂的 Coding 能力？

专家： 在 Coding 能力上，各家咬得很紧，差距并没有特别大。不过，GLM 5.2 肯定还是目前最强的，然后是 DeepSeek 和 Kimi。

主持人：为什么其他模型不直接学智谱的路径？

专家： 智谱有它自己的特殊“配方”，不是想学就能学的。这不仅仅是靠蒸馏或者加大蒸馏力度就能做到的事情。

主持人：那 Agent 的能力，现在哪家最强？

专家： DeepSeek 的 Agent 能力非常突出，但它目前只有文本，没有多模态。其次是 Kimi，因为 Kimi 有一个 Agent 集群功能，能同时调用 300 个子 Agent，处理复杂并行任务的能力很强。

主持人：最后一个问题，未来国产大模型的竞争格局会是什么样？

专家： 什么未来不未来的，半年以后的事都看不清，只能看未来两三个月。按现在的趋势看，DeepSeek 大概率还是会拿到最大的市场份额，因为它对国产硬件的适配起步早，模型的原创性也相对更强。虽然大家说国内架构都是互相“借鉴”，但多数情况是别人借鉴 DeepSeek 的。智谱、Kimi、MiniMax 也都还会留在牌桌上。大厂那边，豆包应该会留在牌桌上，其他的就不好说了。

在技术路线的探索上，无论是深耕人工智能领域的算法创新，还是强化底层智能 & 数据 & 云的基础设施，对算力和数据的极致追求始终是模型进化的核心驱动力。更多关于此类一线从业者的深度观察与实战复盘，欢迎常来云栈社区逛逛，这里沉淀了不少硬核且真实的行业见解。

卡通狗头表情，戴着灰色墨镜

上一篇：是德科技完成VPIphotonics收购，为光子设计自动化补充系统级仿真能力
下一篇：小米寻天增程SUV原型再曝：原厂升顶Loft露营，对标理想L系列

大模型, 蒸馏, 闭源, 智谱, DeepSeek

国产大模型实战谈：蒸馏为何难防？闭源为何是必然出路？

相关帖子