分享一篇来自国内大模型一线从业者的访谈,针对当前关于国内外大模型的诸多争议与困惑,给出了非常接地气的解答。
主持人:都说 Fable 5 特别强,你怎么看?
专家: 国产模型的参数规模普遍在 2 万亿以内,而 Fable 5 直接冲到了 10 万亿,并且依然采用 Dense(稠密)架构,能力大幅领先是必然的。(注:不少朋友认为 Anthropic 走的是 MoE 稀疏架构路线。但根据一些群友的观点,此前有 Anthropic 员工提过他们一直在深耕稠密路线,所以市场上存在两种猜测;另外,5 月份有文章对 GPT 5.4 和 Opus 4.7 的真实知识容量进行了测试,并在过程中反推,结论也倾向于 Dense 架构。)
主持人:国内模型或多或少都借鉴了海外先进模型,那 Fable 5 强化了反蒸馏能力,会不会阻碍我们后续的追赶?

专家: 海外模型一直在构筑反蒸馏的壁垒,但我们同样在蒸馏技术上不断寻求突破。这道防线是挡不住我们的,突破起来并不困难。
主持人:那中美模型之间的核心差距在哪里?我们能否迎头赶上?
专家: 核心就在数据和算力。
国产模型非常缺乏高质量数据,公开数据已经被挖掘了一大半,现在必须去寻找垂类数据、合成数据以及用户实际使用中产生的数据。但问题在于,目前国内模型大多是开源的,像智谱、DeepSeek 的模型会被企业拿去本地部署,数据并不会回流给模型厂商。这与海外形成鲜明对比,海外普遍采用闭源模式,所有数据都在服务器端,Anthropic 和 OpenAI 可以直接将其用于下一次的训练迭代。
其次是算力问题。眼下,国产模型的训练仍然重度依赖英伟达的卡。尽管 DeepSeek 已经完成了与昇腾 950PR 的适配,但那仅仅覆盖了推理侧,训练环节尚且不行。而且昇腾的 CANN 生态仍处于比较初级的阶段。所以,短期内训练依然离不开英伟达的卡,这就要求国内大模型厂商必须想方设法拿到足够的 A100、H100 甚至 B200 卡。为什么像智谱、DeepSeek 都不怎么碰多模态,比如视频模型?字节的即梦手里握着几十万张卡,而且视频模型只能用英伟达的卡来跑,其他初创公司哪有这个家底去做多模态?
所以,无论在数据质量还是算力储备上,海外模型的迭代和优化速度都更快。在如此不利的条件下,国内模型还能勉强咬住差距,实属不易。
主持人:国内模型现在都是开源,终端企业直接拿来本地化部署,像 WorkBuddy 这类的应用也是直接调用,基本不付费。这些模型厂商要么已上市,要么在准备上市,要怎么给股东交代呢?
专家: 开源不会是无止境的,预计到 2026 年年底,整个行业会逐步走向闭源。
主持人:那你怎么看待现在国产模型动辄几百亿美金的估值呢?毕竟各家的 ARR 也就几亿美金。
专家: 不能按这种逻辑看,得用终局思维。就是说,要去预判未来国内 Coding、Agent、订阅服务市场能长到多大,然后根据各家模型的能力,拍出各自能拿下的市场份额,算出一个未来的收入预期,最后再把这个数字贴现回现在。
主持人:如何评判国内模型的好坏?为什么每个人的体验都不一样,实际体感跟跑分榜的差距也很大?
专家: 我们从不看任何通用的 Benchmark 排行,而是用自己内部一套非公开的测试题来评估。因为每个人的使用体验是主观的,带着各自的侧重点,而跑分榜单是多维度、求平均的测试结果。所以人与人之间、人与榜单之间,出现巨大的口碑差异很正常。
主持人:您也看到了智谱的股价表现,在发布 GLM 5.2 之后直接就暴涨了,怎么看国内各家模型厂的 Coding 能力?
专家: 在 Coding 能力上,各家咬得很紧,差距并没有特别大。不过,GLM 5.2 肯定还是目前最强的,然后是 DeepSeek 和 Kimi。
主持人:为什么其他模型不直接学智谱的路径?
专家: 智谱有它自己的特殊“配方”,不是想学就能学的。这不仅仅是靠蒸馏或者加大蒸馏力度就能做到的事情。
主持人:那 Agent 的能力,现在哪家最强?
专家: DeepSeek 的 Agent 能力非常突出,但它目前只有文本,没有多模态。其次是 Kimi,因为 Kimi 有一个 Agent 集群功能,能同时调用 300 个子 Agent,处理复杂并行任务的能力很强。
主持人:最后一个问题,未来国产大模型的竞争格局会是什么样?
专家: 什么未来不未来的,半年以后的事都看不清,只能看未来两三个月。按现在的趋势看,DeepSeek 大概率还是会拿到最大的市场份额,因为它对国产硬件的适配起步早,模型的原创性也相对更强。虽然大家说国内架构都是互相“借鉴”,但多数情况是别人借鉴 DeepSeek 的。智谱、Kimi、MiniMax 也都还会留在牌桌上。大厂那边,豆包应该会留在牌桌上,其他的就不好说了。
在技术路线的探索上,无论是深耕人工智能领域的算法创新,还是强化底层智能 & 数据 & 云的基础设施,对算力和数据的极致追求始终是模型进化的核心驱动力。更多关于此类一线从业者的深度观察与实战复盘,欢迎常来云栈社区逛逛,这里沉淀了不少硬核且真实的行业见解。
