找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4164

积分

0

好友

547

主题
发表于 1 小时前 | 查看: 2| 回复: 0

分享一篇来自国内大模型一线从业者的访谈,针对当前关于国内外大模型的诸多争议与困惑,给出了非常接地气的解答。

主持人:都说 Fable 5 特别强,你怎么看?

专家: 国产模型的参数规模普遍在 2 万亿以内,而 Fable 5 直接冲到了 10 万亿,并且依然采用 Dense(稠密)架构,能力大幅领先是必然的。(注:不少朋友认为 Anthropic 走的是 MoE 稀疏架构路线。但根据一些群友的观点,此前有 Anthropic 员工提过他们一直在深耕稠密路线,所以市场上存在两种猜测;另外,5 月份有文章对 GPT 5.4 和 Opus 4.7 的真实知识容量进行了测试,并在过程中反推,结论也倾向于 Dense 架构。)

主持人:国内模型或多或少都借鉴了海外先进模型,那 Fable 5 强化了反蒸馏能力,会不会阻碍我们后续的追赶?

捂脸表情符号,手持蓝色刀具的黄色卡通形象

专家: 海外模型一直在构筑反蒸馏的壁垒,但我们同样在蒸馏技术上不断寻求突破。这道防线是挡不住我们的,突破起来并不困难。

主持人:那中美模型之间的核心差距在哪里?我们能否迎头赶上?

专家: 核心就在数据和算力。

国产模型非常缺乏高质量数据,公开数据已经被挖掘了一大半,现在必须去寻找垂类数据、合成数据以及用户实际使用中产生的数据。但问题在于,目前国内模型大多是开源的,像智谱、DeepSeek 的模型会被企业拿去本地部署,数据并不会回流给模型厂商。这与海外形成鲜明对比,海外普遍采用闭源模式,所有数据都在服务器端,Anthropic 和 OpenAI 可以直接将其用于下一次的训练迭代。

其次是算力问题。眼下,国产模型的训练仍然重度依赖英伟达的卡。尽管 DeepSeek 已经完成了与昇腾 950PR 的适配,但那仅仅覆盖了推理侧,训练环节尚且不行。而且昇腾的 CANN 生态仍处于比较初级的阶段。所以,短期内训练依然离不开英伟达的卡,这就要求国内大模型厂商必须想方设法拿到足够的 A100、H100 甚至 B200 卡。为什么像智谱、DeepSeek 都不怎么碰多模态,比如视频模型?字节的即梦手里握着几十万张卡,而且视频模型只能用英伟达的卡来跑,其他初创公司哪有这个家底去做多模态?

所以,无论在数据质量还是算力储备上,海外模型的迭代和优化速度都更快。在如此不利的条件下,国内模型还能勉强咬住差距,实属不易。

主持人:国内模型现在都是开源,终端企业直接拿来本地化部署,像 WorkBuddy 这类的应用也是直接调用,基本不付费。这些模型厂商要么已上市,要么在准备上市,要怎么给股东交代呢?

专家: 开源不会是无止境的,预计到 2026 年年底,整个行业会逐步走向闭源。

主持人:那你怎么看待现在国产模型动辄几百亿美金的估值呢?毕竟各家的 ARR 也就几亿美金。

专家: 不能按这种逻辑看,得用终局思维。就是说,要去预判未来国内 Coding、Agent、订阅服务市场能长到多大,然后根据各家模型的能力,拍出各自能拿下的市场份额,算出一个未来的收入预期,最后再把这个数字贴现回现在。

主持人:如何评判国内模型的好坏?为什么每个人的体验都不一样,实际体感跟跑分榜的差距也很大?

专家: 我们从不看任何通用的 Benchmark 排行,而是用自己内部一套非公开的测试题来评估。因为每个人的使用体验是主观的,带着各自的侧重点,而跑分榜单是多维度、求平均的测试结果。所以人与人之间、人与榜单之间,出现巨大的口碑差异很正常。

主持人:您也看到了智谱的股价表现,在发布 GLM 5.2 之后直接就暴涨了,怎么看国内各家模型厂的 Coding 能力?

专家: 在 Coding 能力上,各家咬得很紧,差距并没有特别大。不过,GLM 5.2 肯定还是目前最强的,然后是 DeepSeek 和 Kimi。

主持人:为什么其他模型不直接学智谱的路径?

专家: 智谱有它自己的特殊“配方”,不是想学就能学的。这不仅仅是靠蒸馏或者加大蒸馏力度就能做到的事情。

主持人:那 Agent 的能力,现在哪家最强?

专家: DeepSeek 的 Agent 能力非常突出,但它目前只有文本,没有多模态。其次是 Kimi,因为 Kimi 有一个 Agent 集群功能,能同时调用 300 个子 Agent,处理复杂并行任务的能力很强。

主持人:最后一个问题,未来国产大模型的竞争格局会是什么样?

专家: 什么未来不未来的,半年以后的事都看不清,只能看未来两三个月。按现在的趋势看,DeepSeek 大概率还是会拿到最大的市场份额,因为它对国产硬件的适配起步早,模型的原创性也相对更强。虽然大家说国内架构都是互相“借鉴”,但多数情况是别人借鉴 DeepSeek 的。智谱、Kimi、MiniMax 也都还会留在牌桌上。大厂那边,豆包应该会留在牌桌上,其他的就不好说了。

在技术路线的探索上,无论是深耕人工智能领域的算法创新,还是强化底层智能 & 数据 & 云的基础设施,对算力和数据的极致追求始终是模型进化的核心驱动力。更多关于此类一线从业者的深度观察与实战复盘,欢迎常来云栈社区逛逛,这里沉淀了不少硬核且真实的行业见解。

卡通狗头表情,戴着灰色墨镜




上一篇:是德科技完成VPIphotonics收购,为光子设计自动化补充系统级仿真能力
下一篇:小米寻天增程SUV原型再曝:原厂升顶Loft露营,对标理想L系列
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-6-22 03:22 , Processed in 0.608326 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表