云栈社区»论坛 › 站务中心「 Forum Service 」 › DeepSeek V4发布：百万token超长上下文，混合注意力提升推理效率 ...

发回帖发新帖

3432 积分	0 好友	455 主题

发消息

DeepSeek V4发布：百万token超长上下文，混合注意力提升推理效率73%

发表于 4 小时前 | 查看: 7| 回复: 0

DeepSeek 近日正式推出了 V4 系列大模型，包含 V4-Pro 和 V4-Flash 两个版本。前者拥有 1.6T 参数（激活 49B），后者为 284B 参数（激活 13B），两者均支持 100 万 token 的超长上下文。

此次升级主要集中在三大核心点：

混合注意力机制：结合压缩稀疏注意力与重度压缩注意力。相比 V3.2，推理效率提升 73%，且显存占用仅为原来的 10%。
新优化器 + 训练方案：采用 Muon 优化器，在 32T 高质量数据上进行预训练，并经过两阶段后训练以强化推理能力。
三档推理模式：提供非思考、高思考、最大思考三种模式，灵活适配不同场景需求。

性能方面，V4-Pro-Max 在代码、数学及长文本理解上，直接对标 GPT-5.4、Gemini-3.1 等闭源模型，成为当前最强开源模型。特别是在 LiveCodeBench 上取得了 93.5 分，Codeforces 评分达到 3206，长文本任务表现尤为突出。而 V4-Flash 虽然参数规模较小，但给予足够的思考时间后，推理能力也能媲美 Pro 版本。

值得一提的是，该模型采用 MIT 协议，支持本地部署，代码和权重已在 HuggingFace 发布，开源友好度极高。

上一篇：6个GitHub开源神器：Claude Code实战、语音克隆、浏览器API一网打尽
下一篇：Claude Opus 4.7霸榜背后：AI编程的“技术总监”与商业现实

DeepSeek, 大语言模型, 混合注意力, 推理优化, 开源

DeepSeek V4发布：百万token超长上下文，混合注意力提升推理效率73%

相关帖子