云栈社区»论坛 › 开发者广场「Dev Plaza」 › DeepSeek V4、Kimi K3与GLM-5模型前瞻：我为何最期待前者？ ...

发回帖发新帖

2062 积分	0 好友	278 主题

发消息

DeepSeek V4、Kimi K3与GLM-5模型前瞻：我为何最期待前者？

发表于 2026-1-25 19:06:03 | 查看: 86| 回复: 0

最近AI圈可谓热闹非凡，昨天接连传来两则重磅消息：

月之暗面启动新一代 Kimi 大模型 API 内测，预计采用升级版线性注意力机制，在长文本、审美与价值观层面全面提升，性能目标直指 GPT-5 级别。
多个高可信度消息源（包括历史爆料极准的 Dan McAteer）透露：GPT-5.3（代号 Garlic）最早可能在本周或下周（2026 年 1 月下旬）正式发布。

种种迹象表明，春节前国产抑或国外的AI模型即将迎来新一轮爆发。DeepSeek V4、Qwen 4、Kimi K3、GLM-5......这些名字你可能都听过。

💡 核心问题：究竟谁能率先亮相？谁又能成为中国AI的下一个引领者？

今天，我们就来重点聊聊其中几个颇为关注的选手，并讲讲我心目中最期待的选手是哪位。

⚠️ 温馨提示：本文观点仅代表个人看法，不构成任何投资建议。

📊 回顾2025：三大厂商的发布节奏对比

1. GLM 系列

只列出 2025 年内有明确发布日期的代表性模型或重要版本。

发布时间	模型名称 / 版本
2025-01-16	GLM‑Realtime
2025-01-23	GLM‑PC / GLM‑PC 1.1
2025-04-14	GLM‑4‑32B‑0414 系列
2025-04-14	GLM‑Z1‑32B‑0414
2025-07-27	GLM‑4.5‑Air
2025-07-28	GLM‑4.5
2025-08-11	GLM‑4.5V
2025-09-30	GLM‑4.6
2025-12-08	GLM‑4.6V 与 GLM‑4.6V‑Flash
2025-12-22	GLM‑4.7

2. DeepSeek 系列

仅列出 2025 年内广泛报道、且有明确发布日期的代表性模型 / 检查点。

发布时间	模型名称 / 版本
2025-01-20	DeepSeek‑R1
2025-01-20	DeepSeek‑R1‑Zero
2025-01-27	Janus‑Pro（Janus‑Pro‑7B 等）
2025-01-28	JanusFlow
2025-03-25	DeepSeek‑V3‑0324
2025-04-30	DeepSeek‑Prover‑V2

⚠️ 注意：DeepSeek‑R2 在 2025 年内多次被传计划发布，但截至 2025 年底仍处于“推迟 / 未正式发布”状态，因此未列入“已发布”表格。

3. Kimi / Moonshot AI 系列

包含 Kimi 的 k 系列推理模型、K2 开源万亿参数模型以及 Kimi Linear 架构等。

发布时间	模型名称 / 版本
2025-01-20	Kimi k1.5（k1.5 多模态思考模型）
2025-02-18	kimi‑latest / Kimi Latest
2025-05-06	Kimi 长思考模型 API（kimi‑thinking‑preview）
2025-07-11	Kimi K2
2025-09-05	Kimi K2‑0905（K2 更新版）
2025-10-30/31	Kimi Linear / Kimi‑Linear‑48B‑A3B
2025-11-06	Kimi K2 Thinking

🏆 江湖地位：知名度与市场占有率分析

📈 先说知名度

这局DeepSeek基本是完胜。

还记得2025年初吗？它凭借R1开源模型震撼全球，一举奠定江湖地位。近期更是一口气放出3篇重磅论文，技术细节详尽到被称为“教科书级别”。

💡 DeepSeek的核心优势：

✅ 开源策略赢得全球开发者支持

✅ 论文先行展示技术自信

✅ R1模型的影响力持续发酵

💰 再看商业表现

不过Kimi也绝非等闲之辈。Kimi K2模型在全球范围内获得了不少赞誉，据说2025年收入暴增了170%，实力不容小觑。从收入增长看，它正获得越来越多的认可。

智谱也刚刚上市，作为中国大模型第一股，它的名声自然不用我多说。

💡 我的使用体验与选择（仅供参考）

🎯 先说结论

✅ 最期待：DeepSeek V4（技术突破明显）
⚠️ 使用较少：DeepSeek和Kimi官网（已转向Claude+GLM组合）
📊 最常用：GLM-4.7（编码场景优化好）
❌ 略有失望：Kimi K2（相比k1.5提升有限）

📝 我的真实使用场景

说实话，我已经很久没打开过DeepSeek官网和KimiChat官网了。

为什么？

因为我围绕自己的工作内容打造的个人工作站，靠Claude + GLM-4.7的组合已经覆盖了所有的使用场景。

📊 从发布频率看各家策略

从上面2025年的模型发布情况来看，大家应该能看得出来：

智谱GLM：

🔥 模型发布频繁（10次重大更新）
🎯 针对编码场景不断深入调优
✅ 持续迭代，快速响应用户需求

DeepSeek：

⚠️ 发布节奏较慢（仅6次更新）
📉 上半年备受宠爱，下半年逐渐掉队
💔 我的使用场景越来越少

Kimi：

😕 K2相比K1.5提升有限
💻 代码能力测试结果不理想
❌ 我在官网上还是用K1.5

💡 个人观点：即便如此，DeepSeek作为通用型大模型，依然很受大家喜欢，月活度还是第一梯队。

🚀 为什么我还期待DeepSeek V4？

综合以上情况，我真正看好的是DeepSeek即将发布的新版本，不知道是V4还是其他名字。

🚀 为什么我最期待DeepSeek V4？

🎯 三大核心理由

1. 论文先行，自信满满 📝

✅ 发布模型前先公开技术细节
✅ 纵观其他模型发布，很少有人这么做
✅ 这是对技术的绝对自信

2. 架构创新，解决根本性缺陷 🔧

✅ Engram技术突破Transformer瓶颈
✅ 不是简单地堆参数，而是从底层优化

3. 75%-25%黄金法则 ⚡

✅ 75%算力用于推理（思考）
✅ 25%算力用于记忆（存储）
✅ 算力利用效率大幅提升

📚 为什么我看好这些论文？

因为DeepSeek V4发布的论文我都看过了，借助AI之后，我也是能看懂论文的人了！

纵观其他模型发布，开源这么多模型，也没见别人发布模型之前，先公布论文，再发布模型的。

现在DeepSeek大张旗鼓告诉世人：我们的能力很「出众」。所以也把我的期待值拉满了。

🔍 技术突破点：给模型装上“字典”

DeepSeek V4的核心看点不是简单地堆参数，而是给模型装上“字典”。

💡 什么是Engram技术？

简单来说，就是给AI配备一个“外挂记忆库”，就像我们人类查字典一样：

遇到不懂的词，翻字典（外部记忆）

理解之后再思考（内部推理）

这样AI就不用每次都从头计算那些死记硬背的知识了。

梁文锋团队最近密集发布的论文，已经透露了V4的野心。他们提出的Engram技术，可不是我们传统理解的检索增强生成，而是一种模型架构层面的创新。

⚠️ 传统Transformer的致命问题

传统Transformer架构有个大问题：模型必须消耗大量算力去反复计算那些死记硬背的静态知识。

DeepSeek关于Conditional Memory与Engram技术的学术论文首页

📖 一个有趣的例子：AI如何理解“戴安娜王妃”？

你有没有想过，当大模型看到“Diana, Princess of Wales”（戴安娜王妃）这个词的时候，它内部发生了什么？

DeepSeek在论文里引用了一个很有意思的研究（PatchScope）：

⚠️ 惊人发现：模型需要消耗多层Attention和FFN，才能逐步把这个实体识别出来。

具体来说，模型处理“Wales”这个词时的内部状态演变：

层数	模型内部理解	进度
1-2层	“威尔士”（当成英国的一个地区）	🔴 初步识别
3层	“欧洲的一个国家”	🟡 扩展理解
4层	“女性君主持有的头衔”（开始识别Princess）	🟡 深入分析
5层	“威尔士王储的妻子”	🟢 接近目标
6层	“戴安娜王妃（1961-1997），查尔斯王子的前妻”	✅ 完全识别

💡 通俗理解：

想象一下，当模型要识别“戴安娜王妃”这个词时，竟然需要整整六层计算！

这就像你要回忆一个人的名字，结果：

第1次：想起他是威尔士人

第2次：想起他是欧洲人

第3次：想起他是个女性

...

第6次：终于想起是戴安娜王妃

这效率实在是太低了！

💡 DeepSeek的核心观点：

大模型浪费了大量的“网络深度”在做这种重复性的静态知识重建。

这些算力本来可以用来做更有价值的事——比如推理。

⚡ DeepSeek的解决方案：75%-25%黄金法则

DeepSeek的解决方案简单说就是：75%的精力给思考，25%的精力给记忆。

📊 数据说话：

据论文显示，这种方法相较标准MoE模型：

✅ 节省了约18%的预训练算力

✅ 性能更优

✅ 推理速度更快

🎯 我的三大期待

而且网传这次DeepSeek将要发布的新模型针对的是编码领域，所以我特别希望这个春节，DeepSeek能带给我们更大的惊喜：

🚀 更快的推理速度 - 编码时不再等待
🧠 更智能的推理结果 - 真正理解代码逻辑
💻 更好的编码能力 - 成为程序员的得力助手

✍️ 写在最后：留给友商的时间不多了

当Kimi在忙着商业化变现、GLM在深耕编码场景时，DeepSeek选择了最难的一条路——从底层架构颠覆Transformer。

2026年春节前的这场“模型发布会混战”，也许不只是参数规模的比拼，更是技术路线的抉择时刻。

我觉得留给其他国产友商大模型的时间不多了！！

如果DeepSeek V4真的兑现了论文中的承诺，那么国产大模型的格局可能真的要重新洗牌了。期待未来能在 云栈社区 看到更多关于这些前沿技术的深度讨论和交流。

上一篇：Blaze Persistence提升JPA复杂查询：实体视图与流畅API实战指南
下一篇：黄仁勋达沃斯论述：AI引发最大基建潮，或致劳动力短缺而非失业

DeepSeek, Kimi, GLM, 大语言模型, 人工智能编程