为什么现有的大模型上下文压缩方法,在高压缩率下会集体“翻车”?当你试图把一个32K长度的文本压缩到只剩下1K时,模型的性能为何会出现断崖式下跌?
研究发现,问题的核心在于长文本压缩过程很容易保留大量“高度相似却重复”的内容,从而陷入一种“信息内卷”的困境:看似保留了与问题相关的片段,实则堆砌了大量语义雷同的冗余token。这些冗余信息不仅无助于模型理解,反而会干扰其判断,最终导致生成错误的答案。

来自阿里巴巴未来生活实验室的研究团队指出了症结所在:现有方法的压缩目标存在根本性错位。它们只关注“相关性”,却完全忽略了“多样性”。当多个高度相似的token同时被保留下来,它们不仅无法叠加有效信息量,反而会相互干扰。记住,相关不等于正确,模型很容易在大量冗余的相似信息中迷失方向。
为了破解这一困局,该团队提出了一个颠覆性的观点:高质量的压缩,必须同时优化“与查询的相关性”和“信息单元间的多样性”。基于此,他们推出了全新的压缩框架 COMI,其全称为“COarse-to-fine context compression via Marginal Information Gain”。该框架通过引入“边际信息增益”指标与粗到细的两阶段压缩策略,成功地在32倍的高压缩率下,依然能够精准保留多样化且关键的证据链。这篇论文已被机器学习顶级会议ICLR 2026接收。
压缩的“智能标尺”:边际信息增益(MIG)
研究团队发现,现有压缩方法的盲区在于过度依赖相关性,导致冗余堆积,而忽视了token间的语义相似性所引发的“信息内卷”。为此,他们设计了一个全新的核心指标——边际信息增益。
MIG = 本单元与查询的相关性 - 与其他单元的最大相似度
这个公式如同为每个待压缩的信息单元配备了一张“信息价值计分卡”。它同时执行两项操作:奖励那些与问题高度相关的片段,同时惩罚那些与已被选中内容高度重复的片段。这样一来,压缩决策就从“单维度比相关性”升级为“相关性-冗余性”的双维度综合权衡。
粗到细自适应压缩,让每比特都“物有所值”
有了智能标尺,如何实现精准的压缩操作呢?COMI框架采用了一个两阶段的策略,其过程就像一位经验丰富的编辑,“先谋篇布局,再精雕细琢”。

第一阶段:粗粒度组重分配——动态调配“压缩预算”
在这一步,COMI首先将长文本划分为若干个等长的片段(组)。但与“一刀切”的均匀压缩不同,COMI会基于每个组的MIG值,动态调整各个片段的压缩率。对于那些信息密度高、冗余度低的关键段落(例如包含核心证据的叙述),COMI会分配更宽松的压缩预算(即保留更多内容);而对于那些信息稀疏或高度重复的区域,则进行大幅压缩。这种自适应的分配机制,确保了有限的压缩“预算”能够精准地投向真正的“高价值信息区”。
第二阶段:细粒度token融合——加权融合避免“信息稀释”
在确定了每个片段内部的压缩目标后,COMI会进行更精细的操作。它在每个片段内部,根据每个token的MIG值进行加权融合。具体来说,高MIG的token(即相关且独特)在融合过程中将占据主导权重,而低MIG的token(即冗余或重复)则会被自然地稀释。这一机制有效避免了传统平均池化方法可能导致“关键细节被平滑掉”的问题,使得最终压缩后的表示既紧凑又富含多样化的信息。

整个COMI框架的设计非常高效。研究人员在NaturalQuestions、HotpotQA等多个长上下文问答数据集上仅需进行单次训练,训练好的压缩器即可直接应用于包括问答、摘要在内的多种长文本任务中,展现出良好的通用性。
实践出真知:高压缩率下的优越性能与深刻洞察
下游任务表现卓越
在严格的32倍压缩率约束下,COMI展现出了惊人的性能。以Qwen2-7B-Instruct模型为基座,在NaturalQuestions数据集上,COMI取得了49.15的Exact Match(EM)分数,比当时次优的基线方法高出了近25个百分点。即使面对NarrativeQA这类包含32K超长文本的极端挑战,COMI依然能够稳定地保留推理链中的关键节点,证明了其在极端压缩场景下的强大鲁棒性。

压缩不是“删减”,而是“提纯”
一个更有趣的发现是,高质量的压缩甚至能提升那些原生就支持超长上下文模型的性能。实验表明,对于原生支持256K上下文的Qwen3-4B模型,在NaturalQuestions任务上,使用COMI进行32倍压缩后的输入,其F1分数达到了28.89,远高于直接输入完整原始上下文所获得的16.90分。

这一结果有力地证明,像COMI这样的高质量压缩,其价值不仅仅是给模型“减负”。它通过精准地消除冗余和干扰信息,实现了对原始上下文的“信息提纯”,从而帮助大模型更聚焦于核心证据,做出更准确的判断。这一发现在模型训练和推理优化领域具有重要启示。
效率与效果兼得
除了效果出众,COMI在效率上也表现优异。在32倍压缩设定下,得益于上下文长度的大幅缩短,COMI实现了端到端推理速度2倍以上的提升。同时,其压缩阶段仅引入了非常轻量级的计算开销。例如在NarrativeQA任务中,压缩过程耗时约2.76秒,而后续的文本生成仅需0.50秒。这种高效率为COMI在真实工业场景中的部署铺平了道路。

总结与展望
COMI这项研究工作为大模型的长上下文高效推理提供了一个新的范式。它通过“边际信息增益”这一简洁而深刻的指标,将压缩的核心目标从“保留相关片段”升级为“保留相关且多样化的信息”,从而从根本上破解了高压缩率下的性能瓶颈。其粗到细的自适应压缩策略,则确保了整个过程既能把握全局的信息分布,又能保留局部的语义细节。
这项研究揭示了一个关键洞见:真正高质量的上下文压缩绝非简单的“删减”艺术。它的目标是让保留下来的每一比特信息都承载最大化的、多样化的价值。这对于推动大模型走向更轻量化、更实用化的未来,无疑是迈出了关键的一步。
对深度学习和模型优化感兴趣的朋友,可以关注云栈社区的人工智能板块,获取更多前沿技术解读与讨论。
论文信息