昨天花了一整天,总算是把 DeepSeek V4 的论文啃完了。信息量巨大,技术脉络一环扣一环,之后我又顺藤摸瓜,补了不少相关论文。聊聊我自己对 DeepSeek V4,以及国产模型格局的一些真切体感。
上手实测一波,直观感受是 V4 的“智力”水平并未达到我心中过高的预期。坦率地讲,它并没有明显超越市面上另外几款顶尖的国产模型,感觉距离全球绝对头部的水准,少说也还有七个月以上的路要走。
但这并不妨碍大家对 DeepSeek 这家公司心生好感,不光是我们,X 上的海外开发者群体同样对他们赞誉有加。个中关键,在于他们始终在静水流深地钻研一些能推动技术边界的关键创新。所以即便现阶段纸面能力还没能完全比肩硅谷的顶尖模型,赢得的尊敬却一点不少。
X 上看到一条很有意思的评论,点出:在这一轮 AI 军备竞赛中,美国的 OpenAI、xAI、Anthropic 这几家头部公司,彼此多少有些王不见王的架势,创始人之间鲜有交流,更别提什么开源共享了。
可再回头看咱们这边,情况截然相反。几乎所有排得上号的国产大模型公司,都把开源作为了核心战略之一。研究成果你追我赶,在社区里互相借鉴、共享,氛围截然不同。
就拿这次的 V4 来说,论文里抛出了三块创新:混合注意力机制、mHC 和 Muon 优化器。
但如果你追踪得够深就会发现,这三大方向远非 DeepSeek 一家在孤军奋战。国内相当一部分顶尖 AI 团队都在这些前沿阵地上奋力攻坚。因此,V4 这次的技术迭代,更像是一种环环相扣的“咬合式创新”。
最典型的是 mHC。字节跳动那边早前提出了一个叫 Hyper-Connections 的网络架构思路,而 DeepSeek 瞅准了这个方向,在其基础上引入了流形约束,最终打磨出了 mHC。这是非常经典的渐进式创新——前一棒跑出了个突破口,下一棒接过接力棒,再往前狠狠推进一步。
Muon 这条技术路线就更清晰了。去年二月,Moonshot AI (Kimi) 发了篇论文,头一回证明了 Muon 优化器能稳定地放大到大规模语言模型的训练中。后来他们家的 K2,也正是第一个由 Muon 驱动的、真正站上前沿的模型。这回 V4 直接沿着这条已经跑通的思路走了下去。不夸张地说,Muon 在 LLM 上的整条路径都是 Kimi 趟出来的,V4 则是用力地接过了这一棒。
国内这些创新能力突出的公司,它们的技术路线是紧紧“咬”在一起的。反观硅谷,巨头们各自的技术演进大多是封闭的孤岛,除了偶尔的人才跳槽,思想的碰撞与成果的流通极其有限。
这莫名的熟悉感,让我想起了百多年前莱特兄弟的故事。飞机搞出来之后,兄弟俩立刻锁死了专利墙,直接导致美国整个航空工业在原地踏步了好几年。直到一战烽烟骤起,美国政府才猛然惊觉自己连一架能打的飞机都造不出。情急之下,政府出面牵头搞了个专利池,强制大家共享核心专利,美国的航空产业这才真正插上翅膀,一飞冲天。
专利池的本质是什么?不就是研究共享吗?
眼下国产大模型这个群雄逐鹿的场面,多少有了几分那专利池的味道。一家在某一个方面想透、打通了,就把成果开源出来;下一家马上能站在这个肩膀上往前再走一步;再下一家,则可能迅速把它纳入更宏大的实战系统中去。如此往复,整个行业向前迭代的速率自然会快得多。
即使现在国产模型总体上还没实现对“御三家”的全面反超,但我觉得,这种咬合向上的势头,本身就值得被尊重,更值得来一场满堂喝彩。
|