3483 积分	0 好友	462 主题

发消息

DeepSeek V4百万token来了，RAG还有救吗？

发表于 1 小时前 | 查看: 2| 回复: 0

100万token是什么概念？想象一下，把整部《红楼梦》原文、所有脂批、几篇学术论文和一份完整代码库全塞进去，模型还能精准定位你要的信息。不止V4，DeepSeek还开源&更新了三个开源项目

这件事本身不算新鲜，Gemini 和 Claude 都号称支持超长上下文。但 DeepSeek V4 做到了一件不一样的事：它把百万 token 的推理成本压到了上一代 V3.2 的 十分之一。KV cache 只需要 10%，单 token 推理 FLOPs 只有 27%。

这意味着“超长上下文”终于从展示品变成了可以 日常用 的东西。

DeepSeek-V4论文封面：百万token上下文智能

旧做法哪里不够

在 DeepSeek V4 之前，超长上下文大致有几条路：

一条是硬扛。 把上下文长度拉上去，KV cache 随着序列线性增长，推理到后面每个 token 都要背着前面所有 token 的记忆包袱。Gemini 1M 和 Claude 的扩展上下文本质上都在走这条路，成本很高。

另一条是检索增强（RAG）。 既然一次性塞不下，那就先从外部知识库检索相关片段，只把相关内容喂给模型。这是目前绝大多数企业级应用的标准做法。但 RAG 有一个根本问题：检索质量决定了最终效果的上限，而你永远不知道检索到的那几段内容是不是真正够用。

这两条路都不是最优解。问题是，没有人找到一个既能让模型看到全部信息，又不会让成本爆炸的方法。

DeepSeek V4 的方案：压缩注意力，而不是压缩信息

DeepSeek V4 的核心创新是一套混合注意力架构，把两种压缩策略组合在一起用。

第一种叫 CSA（Compressed Sparse Attention）。 它的思路是：不是所有历史 token 都需要完整记住。每 4 个 token 的 KV cache 压缩成 1 个，然后再用稀疏注意力机制从压缩后的 KV 里挑选最相关的部分做注意力。换句话说，它先压缩再筛选，用两道过滤把计算量压下来。

DeepSeek V4 CSA压缩稀疏注意力架构图

第二种叫 HCA（Heavily Compressed Attention）。 压缩更激进——每 128 个 token 的 KV cache 压成 1 个。但压缩之后不筛选，而是做全量注意力。适用于那些“粗看一眼就够了”的远距离信息。

DeepSeek V4 HCA重度压缩注意力架构图

两种注意力交替使用：CSA 负责需要精细处理的层，HCA 负责可以粗略看的层。再加上一个滑动窗口分支处理局部依赖，三个分支拼在一起，就是 DeepSeek V4 的完整注意力方案。

效果呢？在 100 万 token 的上下文下，DeepSeek V4-Pro 的单 token 推理 FLOPs 只有 V3.2 的 27%，KV cache 只有 10%。更小的 V4-Flash 更夸张：FLOPs 只有 10%，KV cache 只有 7%。

DeepSeek V4与其他模型性能对比及FLOPs/KV Cache对比

实验结果：开源模型第一次追平闭源

数字说明一切。

知识问答。 SimpleQA Verified 上拿到 57.9%，比所有其他开源模型高出 20 个百分点以上。但跟 Gemini 3.1 Pro 的 75.6% 比还有差距。

DeepSeek V4在SimpleQA等基准上的性能对比表格

长上下文。 在 100 万 token 的 MRCR 检索任务中，V4-Pro-Max 拿到 83.5% 的 MMR，超过 Gemini 3.1 Pro 的 76.3%，但低于 Claude Opus 4.6 的 92.9%。

DeepSeek V4在百万token长上下文基准上的性能对比

更值得注意的是 V4-Flash 的表现：总参数量只有 284B（激活 13B），比 V3.2 小得多，但在大多数基准上已经超过 V3.2-Base。这说明架构改进带来的效率提升是真实的，不只是参数换来的。

这件事对 RAG 意味着什么

回到标题的问题：RAG 还有救么？

答案是：RAG 不会消失，但它的角色会变。

当百万 token 的上下文成本降到可以日常使用，很多以前必须依赖检索才能解决的场景，可能直接把全部文档塞进上下文就够了。DeepSeek 自己的测试就显示，在搜索场景中，Agentic Search（直接让模型在长上下文中搜索）比传统 RAG 的胜率高出 61.7%。

DeepSeek V4 Agentic Search与RAG搜索对比结果表格

但这不意味着 RAG 完全没有用。DeepSeek V4 在“对比”和“推荐”这类需要综合多来源信息的任务上，RAG 仍然有竞争力。而且当数据量远超百万 token 时（比如整个企业知识库），检索仍然是必要的。

真正会改变的是中间地带：那些以前因为成本问题不得不切成碎片检索的内容，现在可以直接整块塞进上下文了。

对普通开发者和产品意味着什么

长文档分析从奢侈品变成标准功能。 合同审查、论文解读、财报分析这些以前需要分段处理再拼接的场景，现在可以一次性处理。

代码 Agent 变得更实用。 DeepSeek 的内部测试显示，V4-Pro-Max 在真实研发任务上的通过率达到了 67%，接近 Claude Opus 4.5 的 70%。85 名内部开发者的调查显示，52% 的人愿意把它作为主力代码模型。

多轮复杂任务成为可能。 百万 token 的上下文 + 完整保留推理历史，意味着 Agent 可以在很长的对话中保持连贯的思考链，不会像以前那样每轮都丢掉之前的推理。


DeepSeek-V4: Towards Highly Efficient Million-Token Context Intelligence
https://huggingface.co/collections/deepseek-ai/deepseek-v4

上一篇：2026全国产业集群全景：80个先进制造业集群与66个战略性新兴布局
下一篇：Multica：20K Star开源AI管理平台，调度多工具

DeepSeek V4, RAG, 百万token, 压缩注意力, AI推理效率