云栈社区»论坛 › 技术文档「 Note & Doc 」 › ICLR 2026新突破：COMI长文本压缩框架，32倍压缩下性能反超25% ...

发回帖发新帖

5455 积分	0 好友	739 主题

发消息

ICLR 2026新突破：COMI长文本压缩框架，32倍压缩下性能反超25%

发表于 2026-2-24 04:55:16 | 查看: 174| 回复: 0

为什么现有的大模型上下文压缩方法，在高压缩率下会集体“翻车”？当你试图把一个32K长度的文本压缩到只剩下1K时，模型的性能为何会出现断崖式下跌？

研究发现，问题的核心在于长文本压缩过程很容易保留大量“高度相似却重复”的内容，从而陷入一种“信息内卷”的困境：看似保留了与问题相关的片段，实则堆砌了大量语义雷同的冗余token。这些冗余信息不仅无助于模型理解，反而会干扰其判断，最终导致生成错误的答案。

注意力权重贡献与查询相关令牌相似度热力图

来自阿里巴巴未来生活实验室的研究团队指出了症结所在：现有方法的压缩目标存在根本性错位。它们只关注“相关性”，却完全忽略了“多样性”。当多个高度相似的token同时被保留下来，它们不仅无法叠加有效信息量，反而会相互干扰。记住，相关不等于正确，模型很容易在大量冗余的相似信息中迷失方向。

为了破解这一困局，该团队提出了一个颠覆性的观点：高质量的压缩，必须同时优化“与查询的相关性”和“信息单元间的多样性”。基于此，他们推出了全新的压缩框架 COMI，其全称为“COarse-to-fine context compression via Marginal Information Gain”。该框架通过引入“边际信息增益”指标与粗到细的两阶段压缩策略，成功地在32倍的高压缩率下，依然能够精准保留多样化且关键的证据链。这篇论文已被机器学习顶级会议ICLR 2026接收。

压缩的“智能标尺”：边际信息增益（MIG）

研究团队发现，现有压缩方法的盲区在于过度依赖相关性，导致冗余堆积，而忽视了token间的语义相似性所引发的“信息内卷”。为此，他们设计了一个全新的核心指标——边际信息增益。

MIG = 本单元与查询的相关性 - 与其他单元的最大相似度

这个公式如同为每个待压缩的信息单元配备了一张“信息价值计分卡”。它同时执行两项操作：奖励那些与问题高度相关的片段，同时惩罚那些与已被选中内容高度重复的片段。这样一来，压缩决策就从“单维度比相关性”升级为“相关性-冗余性”的双维度综合权衡。

粗到细自适应压缩，让每比特都“物有所值”

有了智能标尺，如何实现精准的压缩操作呢？COMI框架采用了一个两阶段的策略，其过程就像一位经验丰富的编辑，“先谋篇布局，再精雕细琢”。

COMI多阶段令牌处理流程示意图

第一阶段：粗粒度组重分配——动态调配“压缩预算”

在这一步，COMI首先将长文本划分为若干个等长的片段（组）。但与“一刀切”的均匀压缩不同，COMI会基于每个组的MIG值，动态调整各个片段的压缩率。对于那些信息密度高、冗余度低的关键段落（例如包含核心证据的叙述），COMI会分配更宽松的压缩预算（即保留更多内容）；而对于那些信息稀疏或高度重复的区域，则进行大幅压缩。这种自适应的分配机制，确保了有限的压缩“预算”能够精准地投向真正的“高价值信息区”。

第二阶段：细粒度token融合——加权融合避免“信息稀释”

在确定了每个片段内部的压缩目标后，COMI会进行更精细的操作。它在每个片段内部，根据每个token的MIG值进行加权融合。具体来说，高MIG的token（即相关且独特）在融合过程中将占据主导权重，而低MIG的token（即冗余或重复）则会被自然地稀释。这一机制有效避免了传统平均池化方法可能导致“关键细节被平滑掉”的问题，使得最终压缩后的表示既紧凑又富含多样化的信息。

COMI框架整体架构图，包含编码器、压缩过程与解码器

整个COMI框架的设计非常高效。研究人员在NaturalQuestions、HotpotQA等多个长上下文问答数据集上仅需进行单次训练，训练好的压缩器即可直接应用于包括问答、摘要在内的多种长文本任务中，展现出良好的通用性。

实践出真知：高压缩率下的优越性能与深刻洞察

下游任务表现卓越

在严格的32倍压缩率约束下，COMI展现出了惊人的性能。以Qwen2-7B-Instruct模型为基座，在NaturalQuestions数据集上，COMI取得了49.15的Exact Match（EM）分数，比当时次优的基线方法高出了近25个百分点。即使面对NarrativeQA这类包含32K超长文本的极端挑战，COMI依然能够稳定地保留推理链中的关键节点，证明了其在极端压缩场景下的强大鲁棒性。

多个模型在5个数据集上的性能对比表格，涵盖16x与32x压缩约束

压缩不是“删减”，而是“提纯”

一个更有趣的发现是，高质量的压缩甚至能提升那些原生就支持超长上下文模型的性能。实验表明，对于原生支持256K上下文的Qwen3-4B模型，在NaturalQuestions任务上，使用COMI进行32倍压缩后的输入，其F1分数达到了28.89，远高于直接输入完整原始上下文所获得的16.90分。

COMI与原始提示在不同压缩约束下的得分对比表格

这一结果有力地证明，像COMI这样的高质量压缩，其价值不仅仅是给模型“减负”。它通过精准地消除冗余和干扰信息，实现了对原始上下文的“信息提纯”，从而帮助大模型更聚焦于核心证据，做出更准确的判断。这一发现在模型训练和推理优化领域具有重要启示。

效率与效果兼得

除了效果出众，COMI在效率上也表现优异。在32倍压缩设定下，得益于上下文长度的大幅缩短，COMI实现了端到端推理速度2倍以上的提升。同时，其压缩阶段仅引入了非常轻量级的计算开销。例如在NarrativeQA任务中，压缩过程耗时约2.76秒，而后续的文本生成仅需0.50秒。这种高效率为COMI在真实工业场景中的部署铺平了道路。

NarrativeQA与MultiNews数据集上各方法的效率与效果对比表格

总结与展望

COMI这项研究工作为大模型的长上下文高效推理提供了一个新的范式。它通过“边际信息增益”这一简洁而深刻的指标，将压缩的核心目标从“保留相关片段”升级为“保留相关且多样化的信息”，从而从根本上破解了高压缩率下的性能瓶颈。其粗到细的自适应压缩策略，则确保了整个过程既能把握全局的信息分布，又能保留局部的语义细节。

这项研究揭示了一个关键洞见：真正高质量的上下文压缩绝非简单的“删减”艺术。它的目标是让保留下来的每一比特信息都承载最大化的、多样化的价值。这对于推动大模型走向更轻量化、更实用化的未来，无疑是迈出了关键的一步。

对深度学习和模型优化感兴趣的朋友，可以关注云栈社区的人工智能板块，获取更多前沿技术解读与讨论。

论文信息

标题: COMI: Coarse-to-fine Context Compression via Marginal Information Gain
论文链接: https://arxiv.org/abs/2602.01719
代码仓库: https://github.com/Twilightaaa/COMI

上一篇：OpenAI星际之门AI基建项目搁浅：一年过去数据中心仍未动工
下一篇：英伟达Grace CPU服务器获Meta订单，PC芯片市场迎来新变局

长文本压缩, LLM, 上下文压缩, 问答系统, COMI