最近AI圈可谓热闹非凡,昨天接连传来两则重磅消息:
- 月之暗面启动新一代 Kimi 大模型 API 内测,预计采用升级版线性注意力机制,在长文本、审美与价值观层面全面提升,性能目标直指 GPT-5 级别。
- 多个高可信度消息源(包括历史爆料极准的 Dan McAteer)透露:GPT-5.3(代号 Garlic)最早可能在本周或下周(2026 年 1 月下旬)正式发布。
种种迹象表明,春节前国产抑或国外的AI模型即将迎来新一轮爆发。DeepSeek V4、Qwen 4、Kimi K3、GLM-5......这些名字你可能都听过。
💡 核心问题:究竟谁能率先亮相?谁又能成为中国AI的下一个引领者?
今天,我们就来重点聊聊其中几个颇为关注的选手,并讲讲我心目中最期待的选手是哪位。
⚠️ 温馨提示:本文观点仅代表个人看法,不构成任何投资建议。
📊 回顾2025:三大厂商的发布节奏对比
1. GLM 系列
只列出 2025 年内有明确发布日期的代表性模型或重要版本。
| 发布时间 |
模型名称 / 版本 |
| 2025-01-16 |
GLM‑Realtime |
| 2025-01-23 |
GLM‑PC / GLM‑PC 1.1 |
| 2025-04-14 |
GLM‑4‑32B‑0414 系列 |
| 2025-04-14 |
GLM‑Z1‑32B‑0414 |
| 2025-07-27 |
GLM‑4.5‑Air |
| 2025-07-28 |
GLM‑4.5 |
| 2025-08-11 |
GLM‑4.5V |
| 2025-09-30 |
GLM‑4.6 |
| 2025-12-08 |
GLM‑4.6V 与 GLM‑4.6V‑Flash |
| 2025-12-22 |
GLM‑4.7 |
2. DeepSeek 系列
仅列出 2025 年内广泛报道、且有明确发布日期的代表性模型 / 检查点。
| 发布时间 |
模型名称 / 版本 |
| 2025-01-20 |
DeepSeek‑R1 |
| 2025-01-20 |
DeepSeek‑R1‑Zero |
| 2025-01-27 |
Janus‑Pro(Janus‑Pro‑7B 等) |
| 2025-01-28 |
JanusFlow |
| 2025-03-25 |
DeepSeek‑V3‑0324 |
| 2025-04-30 |
DeepSeek‑Prover‑V2 |
⚠️ 注意:DeepSeek‑R2 在 2025 年内多次被传计划发布,但截至 2025 年底仍处于“推迟 / 未正式发布”状态,因此未列入“已发布”表格。
3. Kimi / Moonshot AI 系列
包含 Kimi 的 k 系列推理模型、K2 开源万亿参数模型以及 Kimi Linear 架构等。
| 发布时间 |
模型名称 / 版本 |
| 2025-01-20 |
Kimi k1.5(k1.5 多模态思考模型) |
| 2025-02-18 |
kimi‑latest / Kimi Latest |
| 2025-05-06 |
Kimi 长思考模型 API(kimi‑thinking‑preview) |
| 2025-07-11 |
Kimi K2 |
| 2025-09-05 |
Kimi K2‑0905(K2 更新版) |
| 2025-10-30/31 |
Kimi Linear / Kimi‑Linear‑48B‑A3B |
| 2025-11-06 |
Kimi K2 Thinking |
🏆 江湖地位:知名度与市场占有率分析
📈 先说知名度
这局DeepSeek基本是完胜。
还记得2025年初吗?它凭借R1开源模型震撼全球,一举奠定江湖地位。近期更是一口气放出3篇重磅论文,技术细节详尽到被称为“教科书级别”。
💡 DeepSeek的核心优势:
- ✅ 开源策略赢得全球开发者支持
- ✅ 论文先行展示技术自信
- ✅ R1模型的影响力持续发酵
💰 再看商业表现
不过Kimi也绝非等闲之辈。Kimi K2模型在全球范围内获得了不少赞誉,据说2025年收入暴增了170%,实力不容小觑。从收入增长看,它正获得越来越多的认可。
智谱也刚刚上市,作为中国大模型第一股,它的名声自然不用我多说。
💡 我的使用体验与选择(仅供参考)
🎯 先说结论
- ✅ 最期待:DeepSeek V4(技术突破明显)
- ⚠️ 使用较少:DeepSeek和Kimi官网(已转向Claude+GLM组合)
- 📊 最常用:GLM-4.7(编码场景优化好)
- ❌ 略有失望:Kimi K2(相比k1.5提升有限)
📝 我的真实使用场景
说实话,我已经很久没打开过DeepSeek官网和KimiChat官网了。
为什么?
因为我围绕自己的工作内容打造的个人工作站,靠Claude + GLM-4.7的组合已经覆盖了所有的使用场景。
📊 从发布频率看各家策略
从上面2025年的模型发布情况来看,大家应该能看得出来:
智谱GLM:
- 🔥 模型发布频繁(10次重大更新)
- 🎯 针对编码场景不断深入调优
- ✅ 持续迭代,快速响应用户需求
DeepSeek:
- ⚠️ 发布节奏较慢(仅6次更新)
- 📉 上半年备受宠爱,下半年逐渐掉队
- 💔 我的使用场景越来越少
Kimi:
- 😕 K2相比K1.5提升有限
- 💻 代码能力测试结果不理想
- ❌ 我在官网上还是用K1.5
💡 个人观点:即便如此,DeepSeek作为通用型大模型,依然很受大家喜欢,月活度还是第一梯队。
🚀 为什么我还期待DeepSeek V4?
综合以上情况,我真正看好的是DeepSeek即将发布的新版本,不知道是V4还是其他名字。
🚀 为什么我最期待DeepSeek V4?
🎯 三大核心理由
1. 论文先行,自信满满 📝
- ✅ 发布模型前先公开技术细节
- ✅ 纵观其他模型发布,很少有人这么做
- ✅ 这是对技术的绝对自信
2. 架构创新,解决根本性缺陷 🔧
3. 75%-25%黄金法则 ⚡
- ✅ 75%算力用于推理(思考)
- ✅ 25%算力用于记忆(存储)
- ✅ 算力利用效率大幅提升
📚 为什么我看好这些论文?
因为DeepSeek V4发布的论文我都看过了,借助AI之后,我也是能看懂论文的人了!
纵观其他模型发布,开源这么多模型,也没见别人发布模型之前,先公布论文,再发布模型的。
现在DeepSeek大张旗鼓告诉世人:我们的能力很「出众」。所以也把我的期待值拉满了。
🔍 技术突破点:给模型装上“字典”
DeepSeek V4的核心看点不是简单地堆参数,而是给模型装上“字典”。
💡 什么是Engram技术?
简单来说,就是给AI配备一个“外挂记忆库”,就像我们人类查字典一样:
- 遇到不懂的词,翻字典(外部记忆)
- 理解之后再思考(内部推理)
这样AI就不用每次都从头计算那些死记硬背的知识了。
梁文锋团队最近密集发布的论文,已经透露了V4的野心。他们提出的Engram技术,可不是我们传统理解的检索增强生成,而是一种模型架构层面的创新。
传统Transformer架构有个大问题:模型必须消耗大量算力去反复计算那些死记硬背的静态知识。

📖 一个有趣的例子:AI如何理解“戴安娜王妃”?
你有没有想过,当大模型看到“Diana, Princess of Wales”(戴安娜王妃)这个词的时候,它内部发生了什么?
DeepSeek在论文里引用了一个很有意思的研究(PatchScope):
⚠️ 惊人发现:模型需要消耗多层Attention和FFN,才能逐步把这个实体识别出来。
具体来说,模型处理“Wales”这个词时的内部状态演变:
| 层数 |
模型内部理解 |
进度 |
| 1-2层 |
“威尔士”(当成英国的一个地区) |
🔴 初步识别 |
| 3层 |
“欧洲的一个国家” |
🟡 扩展理解 |
| 4层 |
“女性君主持有的头衔”(开始识别Princess) |
🟡 深入分析 |
| 5层 |
“威尔士王储的妻子” |
🟢 接近目标 |
| 6层 |
“戴安娜王妃(1961-1997),查尔斯王子的前妻” |
✅ 完全识别 |
💡 通俗理解:
想象一下,当模型要识别“戴安娜王妃”这个词时,竟然需要整整六层计算!
这就像你要回忆一个人的名字,结果:
- 第1次:想起他是威尔士人
- 第2次:想起他是欧洲人
- 第3次:想起他是个女性
- ...
- 第6次:终于想起是戴安娜王妃
这效率实在是太低了!
💡 DeepSeek的核心观点:
大模型浪费了大量的“网络深度”在做这种重复性的静态知识重建。
这些算力本来可以用来做更有价值的事——比如推理。
⚡ DeepSeek的解决方案:75%-25%黄金法则
DeepSeek的解决方案简单说就是:75%的精力给思考,25%的精力给记忆。
📊 数据说话:
据论文显示,这种方法相较标准MoE模型:
- ✅ 节省了约18%的预训练算力
- ✅ 性能更优
- ✅ 推理速度更快
🎯 我的三大期待
而且网传这次DeepSeek将要发布的新模型针对的是编码领域,所以我特别希望这个春节,DeepSeek能带给我们更大的惊喜:
- 🚀 更快的推理速度 - 编码时不再等待
- 🧠 更智能的推理结果 - 真正理解代码逻辑
- 💻 更好的编码能力 - 成为程序员的得力助手
✍️ 写在最后:留给友商的时间不多了
当Kimi在忙着商业化变现、GLM在深耕编码场景时,DeepSeek选择了最难的一条路——从底层架构颠覆Transformer。
2026年春节前的这场“模型发布会混战”,也许不只是参数规模的比拼,更是技术路线的抉择时刻。
我觉得留给其他国产友商大模型的时间不多了!!
如果DeepSeek V4真的兑现了论文中的承诺,那么国产大模型的格局可能真的要重新洗牌了。期待未来能在 云栈社区 看到更多关于这些前沿技术的深度讨论和交流。