在20倍压缩比下达到98%的解码准确率,即便在40倍压缩比下仍能保持93%的准确率。作为对比,DeepSeek-OCR方案在20倍压缩下的准确率仅约为60%。这一性能差距相当显著。
处理长上下文是目前大语言模型面临的核心挑战之一。百万token级别的输入已不罕见,无论是让Claude阅读整本书籍,还是使用GPT分析数十个文件,动辄就需要处理数十万token。
因此,业界持续探索各种“压缩”上下文的方法。主流方案大致分为以下几类:
- 稀疏注意力:如Longformer、BigBird,仅关注部分关键token。
- KV Cache压缩:对缓存中的键值对进行量化或淘汰。
- 提示词压缩:使用较小模型将长文本摘要为短文本,再输入给大模型。
- 光学压缩:类似于DeepSeek-OCR,将文本渲染为图像,再利用视觉编码器进行压缩。
美团的C3技术选择了第三条路径,但在具体实现上有所不同。
C3的核心思路:级联架构
传统的提示词压缩方案存在一个问题:压缩与解码通常使用相同或相近规模的模型。这导致压缩效率难以提升——小模型的压缩能力有限,而使用大模型进行压缩成本又过高。
C3的解决方案是采用级联架构,明确分工:让小模型专司压缩,让大模型专司解码。
- 第一阶段(压缩):使用一个较小的LLM作为压缩器,将长上下文压缩为一组潜在token,数量可以是32或64个。
- 第二阶段(解码):使用一个较大的LLM作为解码器,基于这些压缩后的潜在token执行具体任务。
为何此设计有效?
其背后的核心逻辑在于,压缩与理解是两种不同的能力需求。
- 压缩任务 需要的是信息提取与编码能力——即识别内容的重要性、冗余部分,并学会用更少的符号保留核心语义。此任务对模型的“智能”要求相对较低,但对处理效率要求极高。
- 理解与推理任务 则需要深度的语义建模与逻辑推理能力。这要求模型具备强大的能力,但由于输入已被压缩,实际计算量变得可控。
通过让小模型处理前者,大模型处理后者,C3充分结合了两种规模模型的优势。这本质上是“分而治之”思想在复杂AI任务中的成功应用。
视觉压缩方案的瓶颈:为何效果不及纯文本?
DeepSeek的视觉压缩方案思路是将文本渲染成图片,再利用视觉编码器压缩,类似于人眼快速浏览图像后只留下大致印象。
但实验数据显示,在相同的20倍压缩比下,视觉方案的准确率(约60%)远低于C3的纯文本方案(98%)。
究其根本,问题出在信息的“原生表示”上。
文本信息本质是离散和符号化的,每个token都有清晰的语义边界,词与词之间的关系是结构化的。在文本领域内直接进行压缩,操作对象就是这些语义单元本身。然而,一旦将文本渲染为图像,信息就被“摊平”为一个连续的像素矩阵。原本清晰的词汇边界、语法结构,全部转化为像素间的空间位置关系。视觉编码器首先需要将这些像素重新解码成语义,再进行压缩。
这个过程相当于先将结构化数据序列化为字节流,然后再试图从字节流中重建结构——必然伴随信息损失。
此外,视觉编码器通常是在自然图像(包含光影、纹理、物体轮廓)上训练而成的。让其理解“文字的截图”,相当于让工具处理其不擅长的事务。另一个常被忽略的点是,字体、字号、行距等视觉属性会占用编码容量,但对语义理解并无贡献。同一句话用宋体或黑体显示,视觉编码器会产生不同的表示,但语义完全一致。这在无形中浪费了信息带宽。
因此,C3采用的纯文本路线,本质是在信息的原生表示上进行操作,避免了模态转换带来的开销。这也解释了其效果的显著优势——并非视觉方案做得不好,而是该路径本身存在理论天花板。
32/64个潜在token的容量之问
一个很自然的疑问是:将上千个原始token压缩到仅32个潜在token,信息真的够用吗?
假设原文有1000个token,压缩到32个潜在token,压缩比约为31倍。这意味着平均每个潜在token需要承载约31个原始token的信息。
从信息论角度看,这取决于原文的冗余度与潜在token的表示容量。
自然语言本身具有高度冗余性。同时,现代神经网络模型的嵌入维度通常很高(如4096维),单个token的表示容量巨大。因此,理论上,如果训练得当,32个高维向量完全可以编码丰富的语义信息。
但这里存在一个关键前提:压缩模型与解码模型必须能“理解同一种语言”。即小模型生成的潜在token,必须能被大模型准确解析。这要求两个模型之间需要有良好的对齐,很可能通过端到端训练或专门的对齐阶段实现。随之而来的一个限制是,压缩器与解码器是耦合的,不能随意替换。用C3训练的压缩器去匹配一个未经“训练”的解码模型,效果很可能大幅下降。
展望:更长的窗口还是更智能的压缩?
C3这类工作引发了一个长期思考:LLM的未来,是追求更长的上下文窗口,还是发展更智能的压缩技术?
当前,OpenAI、Google等厂商不断突破上下文窗口长度,从数万到百万token。但这条路存在物理极限,包括注意力计算复杂度、显存容量、训练数据分布等,不可能无限扩展。
另一条道路则是压缩——无论输入多长,都将其压缩至固定长度进行处理。这实际上更贴近人脑的工作模式:阅读书籍时,我们并非记忆每个字句,而是提取关键信息形成“理解”,在需要时再回溯细节。
C3的成果证明了这条路径的可行性。40倍压缩下仍能保持93%的准确率,有力揭示了自然文本中存在大量可压缩的冗余。
我们曾一度认为延长上下文窗口是唯一的出路。然而,信息论早已指出,英语等自然语言中每个字母仅承载约1比特信息,其余多为可预测的冗余。C3以神经网络的方式,再次验证了这一经典理论。上下文压缩这条技术路径,显然还蕴藏着广阔的探索空间。