5125 积分	0 好友	695 主题

发消息

IndexCache优化长文本推理：减少75%计算冗余，提速1.8倍

发表于 2026-3-31 02:53:34 | 查看: 90| 回复: 0

将20万个token的处理时间压进10秒，这项来自清华大学团队的技术，有望将长上下文AI应用的算力成本直接降低近半。

从19.5秒到10.7秒，处理一个包含20万token的长文本时，首包响应时间被压缩了近一半。更关键的是，研究团队从底层计算中精准地剔除了高达75%的冗余计算，而模型的核心性能几乎保持不变——甚至在数学推理测试AIME 2025上，分数从91.0提升到了92.6。

这项名为IndexCache的技术，由清华大学与Z.ai联合推出。它瞄准了当前流行的DeepSeek稀疏注意力架构，揭示并解决了一个连原架构都未能完全优化的“隐形”性能瓶颈。

长文本的算力困境：稀疏注意力也难逃的“索引税”

大模型处理长上下文，向来是消耗计算资源的“黑洞”。

核心问题在于传统的自我注意力机制，其计算复杂度会随着输入序列长度的增加呈二次方级爆炸。简单来说，处理一段20万token的文本，其计算量并非1万token的20倍，而是惊人的400倍。这正是长文档分析、多步Agent工作流等应用场景让企业云账单迅速攀升的根本原因。

DeepSeek稀疏注意力曾被视作解决此问题的关键。它不再要求每个token关注序列中的所有其他token，而是通过一个名为“闪电索引器”的轻量级模块，为每一层模型筛选出最相关的token子集进行注意力计算，从而将核心计算复杂度从二次方降低到了线性级别。

然而，清华团队的研究发现，DSA虽然大幅削减了“主菜”（核心注意力）的成本，却在“配料”（索引器）上产生了新的巨额开销。那个本应轻量的索引器模块，其自身的计算复杂度依然是二次方的。随着上下文长度急剧增加，模型花费在“筛选重要token”上的时间，反而成为了新的性能瓶颈，尤其是在预填充阶段，索引器带来的延迟“税”会指数级飙升。

这好比将一辆重型卡车改装得轻便了，但负责检查每扇车门是否需要关闭的“保安”却累得效率低下。

“偷懒”的艺术：发现相邻层的重复计算

研究团队深入分析了DSA模型运行时的内部数据，发现了一个关键现象：相邻的Transformer层所选择的token子集高度重合，重叠率可达70%到100%。

这意味着，第N层模型耗费算力精心筛选出的重要token，与第N+1层、第N+2层需要使用的，基本上是同一批。每一层都在独立进行着大量重复的筛选工作。

基于这一洞察，IndexCache提出了一种巧妙的层分类策略：将模型中的层划分为完整层和共享层。完整层保留完整的索引器，执行标准的筛选计算，并将其结果（即选中的token索引）存入缓存；共享层则直接从缓存中复制最近一个完整层的结果，跳过自身的索引计算。

这不同于传统的KV Cache压缩技术。正如论文作者所强调的：“IndexCache消除的是计算冗余，而不仅仅是内存占用。它与现有的各种缓存优化技术是正交的，完全可以叠加使用。”

显著成效：计算量大减，推理性能反升

在300亿参数的GLM-4.7 Flash模型上，IndexCache展现了其强大的优化能力。

当上下文长度拉长至20万token时，预填充延迟从19.5秒大幅降至10.7秒，提速达到1.82倍；在文本生成阶段，吞吐量从每秒58个token提升至86个，增幅为1.48倍。当服务器满载运行时，总解码吞吐量更是直接跃升了51%。

更令人惊讶的是模型输出的质量。采用“训练无关”方案（无需重新训练模型，仅通过贪心算法选择哪些层作为完整层）削减了75%的索引器计算后，模型在长文本基准测试上的平均分仅从50.2微降至49.9，几乎无损。而在AIME 2025数学推理测试中，优化后的模型得分甚至比原始版本高出1.6分。

理论上来讲，精简计算可能会损失一些模型精度，但IndexCache似乎帮助模型过滤掉了一些干扰“噪声”。

在参数规模高达7440亿的GLM-5巨型模型上，IndexCache同样表现稳定。在10万token以上的长上下文场景中，推理速度提升至少1.3倍，同时输出质量保持率接近100%。

对于企业而言，这意味着在RAG增强检索、长文档分析、复杂Agent流程等长上下文应用场景的部署成本有望直接降低约20%。即便是短文本任务，也能节省5%左右的算力开销。对于正在探索大模型落地的团队，可以关注云栈社区上关于成本优化与系统架构的更多讨论。

双路径部署：从即插即用到深度定制

IndexCache为不同需求的团队提供了两种灵活的集成路径。

训练无关路径非常适合希望直接优化现有DSA模型（如DeepSeek系列、GLM系列）的团队。该方法通过运行一个贪心算法，在一小批校准数据上自动决定模型中哪些层应设为完整层，哪些设为共享层，整个过程无需修改模型原有的权重参数。

训练感知路径则面向那些计划从头开始预训练或进行深度微调的硬核开发者。在模型训练阶段就引入一种“多层蒸馏损失”函数，使得完整层能够学会筛选出能让后续所有共享层都达成共识的、最具代表性的token子集。

目前，该技术的开源补丁已经集成到vLLM和SGLang等主流推理引擎中。作者特别提醒，在进行层共享模式校准时，最好使用与目标应用领域相关的特定数据，以便“让层的共享模式对齐真实的工作负载，而不是用通用数据集草草了事”。

行业转向：为高效推理而生的新架构范式

IndexCache的意义远不止于一个性能优化补丁。

它揭示了一个重要的行业趋势：过去，技术演进往往是先追求极致的模型能力（训练），再回头优化其运行效率（推理），颇有“先污染后治理”的意味。但现在，模型架构设计从一开始就需要将推理阶段的关键约束纳入考量。

正如研究者所言，未来评估一个基础模型的“可扩展性”，将不再仅仅指其参数量能扩展到多大，更重要的是指在现实世界的吞吐量和延迟约束下，它能够运行得多快、多省。

当处理20万token的时间被压缩到10秒级别，当拥有数千亿参数的巨模型也能“轻装上阵”，阻碍长上下文AI应用大规模普及的最后一道算力门槛，正在被逐渐拆除。这不仅是工程上的优化，更体现了整个人工智能领域对实用性与效率的日益重视。

参考链接：
https://venturebeat.com/technology/indexcache-a-new-sparse-attention-optimizer-delivers-1-82x-faster-inference

上一篇：一位粉丝用大半年时间为偶像ITZY开发了免费的回合制策略塔防同人游戏《G.I.R.L.S. will be Girls》
下一篇：斯坦福Science研究：大模型过度“迎合”用户危害人际关系，如何理性看待AI建议？

IndexCache, DeepSeek, Transformer, 大模型推理, 开源优化