找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1180

积分

1

好友

161

主题
发表于 3 天前 | 查看: 9| 回复: 0

在20倍压缩比下达到98%的解码准确率,即便在40倍压缩比下仍能保持93%的准确率。作为对比,DeepSeek-OCR方案在20倍压缩下的准确率仅约为60%。这一性能差距相当显著。

处理长上下文是目前大语言模型面临的核心挑战之一。百万token级别的输入已不罕见,无论是让Claude阅读整本书籍,还是使用GPT分析数十个文件,动辄就需要处理数十万token。

因此,业界持续探索各种“压缩”上下文的方法。主流方案大致分为以下几类:

  1. 稀疏注意力:如Longformer、BigBird,仅关注部分关键token。
  2. KV Cache压缩:对缓存中的键值对进行量化或淘汰。
  3. 提示词压缩:使用较小模型将长文本摘要为短文本,再输入给大模型。
  4. 光学压缩:类似于DeepSeek-OCR,将文本渲染为图像,再利用视觉编码器进行压缩。

美团的C3技术选择了第三条路径,但在具体实现上有所不同。

C3的核心思路:级联架构

传统的提示词压缩方案存在一个问题:压缩与解码通常使用相同或相近规模的模型。这导致压缩效率难以提升——小模型的压缩能力有限,而使用大模型进行压缩成本又过高。

C3的解决方案是采用级联架构,明确分工:让小模型专司压缩,让大模型专司解码

  • 第一阶段(压缩):使用一个较小的LLM作为压缩器,将长上下文压缩为一组潜在token,数量可以是32或64个。
  • 第二阶段(解码):使用一个较大的LLM作为解码器,基于这些压缩后的潜在token执行具体任务。

为何此设计有效?

其背后的核心逻辑在于,压缩理解是两种不同的能力需求。

  • 压缩任务 需要的是信息提取与编码能力——即识别内容的重要性、冗余部分,并学会用更少的符号保留核心语义。此任务对模型的“智能”要求相对较低,但对处理效率要求极高。
  • 理解与推理任务 则需要深度的语义建模与逻辑推理能力。这要求模型具备强大的能力,但由于输入已被压缩,实际计算量变得可控。

通过让小模型处理前者,大模型处理后者,C3充分结合了两种规模模型的优势。这本质上是“分而治之”思想在复杂AI任务中的成功应用。

视觉压缩方案的瓶颈:为何效果不及纯文本?

DeepSeek的视觉压缩方案思路是将文本渲染成图片,再利用视觉编码器压缩,类似于人眼快速浏览图像后只留下大致印象。

但实验数据显示,在相同的20倍压缩比下,视觉方案的准确率(约60%)远低于C3的纯文本方案(98%)。

究其根本,问题出在信息的“原生表示”上。

文本信息本质是离散和符号化的,每个token都有清晰的语义边界,词与词之间的关系是结构化的。在文本领域内直接进行压缩,操作对象就是这些语义单元本身。然而,一旦将文本渲染为图像,信息就被“摊平”为一个连续的像素矩阵。原本清晰的词汇边界、语法结构,全部转化为像素间的空间位置关系。视觉编码器首先需要将这些像素重新解码成语义,再进行压缩。

这个过程相当于先将结构化数据序列化为字节流,然后再试图从字节流中重建结构——必然伴随信息损失。

此外,视觉编码器通常是在自然图像(包含光影、纹理、物体轮廓)上训练而成的。让其理解“文字的截图”,相当于让工具处理其不擅长的事务。另一个常被忽略的点是,字体、字号、行距等视觉属性会占用编码容量,但对语义理解并无贡献。同一句话用宋体或黑体显示,视觉编码器会产生不同的表示,但语义完全一致。这在无形中浪费了信息带宽。

因此,C3采用的纯文本路线,本质是在信息的原生表示上进行操作,避免了模态转换带来的开销。这也解释了其效果的显著优势——并非视觉方案做得不好,而是该路径本身存在理论天花板。

32/64个潜在token的容量之问

一个很自然的疑问是:将上千个原始token压缩到仅32个潜在token,信息真的够用吗?

假设原文有1000个token,压缩到32个潜在token,压缩比约为31倍。这意味着平均每个潜在token需要承载约31个原始token的信息。

从信息论角度看,这取决于原文的冗余度与潜在token的表示容量

自然语言本身具有高度冗余性。同时,现代神经网络模型的嵌入维度通常很高(如4096维),单个token的表示容量巨大。因此,理论上,如果训练得当,32个高维向量完全可以编码丰富的语义信息。

但这里存在一个关键前提:压缩模型与解码模型必须能“理解同一种语言”。即小模型生成的潜在token,必须能被大模型准确解析。这要求两个模型之间需要有良好的对齐,很可能通过端到端训练或专门的对齐阶段实现。随之而来的一个限制是,压缩器与解码器是耦合的,不能随意替换。用C3训练的压缩器去匹配一个未经“训练”的解码模型,效果很可能大幅下降。

展望:更长的窗口还是更智能的压缩?

C3这类工作引发了一个长期思考:LLM的未来,是追求更长的上下文窗口,还是发展更智能的压缩技术?

当前,OpenAI、Google等厂商不断突破上下文窗口长度,从数万到百万token。但这条路存在物理极限,包括注意力计算复杂度、显存容量、训练数据分布等,不可能无限扩展。

另一条道路则是压缩——无论输入多长,都将其压缩至固定长度进行处理。这实际上更贴近人脑的工作模式:阅读书籍时,我们并非记忆每个字句,而是提取关键信息形成“理解”,在需要时再回溯细节。

C3的成果证明了这条路径的可行性。40倍压缩下仍能保持93%的准确率,有力揭示了自然文本中存在大量可压缩的冗余。

我们曾一度认为延长上下文窗口是唯一的出路。然而,信息论早已指出,英语等自然语言中每个字母仅承载约1比特信息,其余多为可预测的冗余。C3以神经网络的方式,再次验证了这一经典理论。上下文压缩这条技术路径,显然还蕴藏着广阔的探索空间。




上一篇:NLP入门基础与核心技术概念解析:从NLU到NLG
下一篇:树莓派CM0 NANO本地部署EMQX实战:基于Docker的物联网MQTT接入测试
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-17 16:02 , Processed in 0.105834 second(s), 38 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表