找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4002

积分

0

好友

554

主题
发表于 2 小时前 | 查看: 2| 回复: 0

论文Variation-aware Vision Token Dropping for Faster Large Vision-Language Models封面

背景与动机

随着高分辨率图像理解与长视频处理需求的爆发式增长,大型视觉语言模型所需处理的视觉Token数量急剧膨胀,推理效率成为落地部署的核心瓶颈。Token压缩是缩短序列、提升吞吐的直接手段,但现有方法普遍依赖注意力权重来判断Token重要性,这一路线暗藏两个致命缺陷:

一是位置偏差问题,该方法倾向于机械地保留序列末尾的Token,无论图像内容如何,注意力得分普遍在序列末尾形成峰值(红色箭头),导致关键的前期Token被丢弃,进而加剧多模态幻觉。

二是与高效算子存在根本性的不兼容,计算注意力权重与FlashAttention等高效机制之间存在本质冲突。相比之下,右侧三列展示了基于L2 Norm变化量评估方法的显著优势——其得分分布均匀、能够精准聚焦于含有关键信息的图像区域,且无需显式注意力计算,与高效算子天然兼容。

注意力引导 vs. 变化量感知的 Token 评估对比

核心发现

发现1:注意力方法存在系统性末端偏置

研究团队在LLaVA-1.5-7B和Qwen2-VL-7B上,对比了SparseVLM、FastV与L2 Norm变化量评估在相同输入下的Token保留行为。注意力方法的保留概率曲线均呈单调递增阶梯形状——末端Token保留率高达80%~100%,前端仅10%~30%,与内容重要性毫无关联。L2 Norm则呈近似均匀分布,天然规避位置偏差。

两大模型上视觉Token保留位置分布分析

发现2:变化量高的Token天然对应语义关键区域

针对两个典型样本(百事可乐瓶识别、球衣号码识别),L1 Norm、L2 Norm和余弦相似度三种指标均在答案相关区域出现显著峰值,且无论关键区域位于序列中段还是后段均能精准捕捉。这表明变化量是衡量视觉Token重要性的鲁棒内在属性,L2 Norm综合性能最优,被V²Drop选为默认度量。

三种变化量度量指标均精准定位答案相关区域

解决方案:V²Drop

V²Drop在LLM推理阶段采用多阶段渐进式剪枝策略,三步实现高效无偏Token压缩:

① 变化量计算

在每个预定义剪枝层,计算每个视觉Token与上一层表示的L2距离作为重要性得分。额外开销仅为单层注意力计算量的0.022%,可忽略不计。

② Token排序与选择

按变化量得分从高到低排序,保留Top-K个Token,自然过滤惰性Token,无需引入任何位置偏置。

③ 渐进式压缩

在浅层、中层、深层三阶段依次执行剪枝,形成M → Ka → Kb → Kc渐进压缩路径。消融实验证明,渐进式剪枝比一次性剪枝在POPE上高9.3%、MME上高5.9%。

V²Drop整体框架

理论保证

通过一阶Taylor展开证明,Token的变化量幅度与其对模型输出的影响正相关,从理论上验证了丢弃低变化量Token能最小化输出扰动的核心假设。架构的三大属性(残差连接、Layer Norm、平滑激活函数)共同保证了理论假设的合理性。

实验结果

1、图像理解(LLaVA-1.5-7B & Qwen2-VL-7B)

在图像场景的核心表现上,V²Drop在LLaVA-1.5-7B上,压缩66.7% Token(保留192个)时,综合性能达97.6%,超越次优方法PDrop(96.0%)。此外,在Qwen2-VL-7B高分辨率场景中,66.7%和77.8%两档压缩率下均全面超越FastV和DART,尤其在POPE幻觉抑制指标上表现突出,充分验证了该方法对原生可变分辨率输入的强泛化能力。

基于 LLaVA-1.5-7B 的多图像理解基准测试对比

基于 Qwen2-VL-7B 的多图像理解基准测试对比

2、视频理解(LLaVA-OV-7B & Qwen2-VL-7B)

在视频场景中,V²Drop同样表现卓越:仅保留25%的Token时,综合性能即达98.6%,超越保留30% Token的DyCoke(97.7%),以更少Token实现更优性能;在长视频任务上持续领跑,有效缓解了VideoLLM普遍存在的末帧偏置问题;在Qwen2-VL-7B场景下,仅保留20% Token时综合性能达93.3%,其中MVBench以62.1分大幅领先DART(58.9)和FastV(50.9),优势尤为突出。

基于 Qwen2-VL-7B 的多视频理解基准测试性能对比

基于 LLaVA-OV-7B 的多视频理解基准测试性能对比

3、效率分析(与高效算子完全兼容)

在效率层面,V²Drop同样带来显著收益:图文理解任务中,LLM生成延迟降低31.5%,吞吐量提升至9.01 items/s,峰值显存同步下降3.3%;视频理解任务中,LLM生成延迟大幅削减74.2%,吞吐量提升1.38×,峰值显存降低7.8%。与之形成鲜明对比的是,SparseVLM、FastV、PDrop在视频场景下峰值显存分别暴增54.8%、39.2%和37.8%,而V²Drop无需计算注意力矩阵,真正实现了加速与节存的双重收益。

图像/视频理解任务的效率对比

结论

V²Drop为视觉语言模型的推理加速开辟了一条全新路径。研究发现,视觉Token在Transformer各层间的变化量与其任务相关性高度吻合,且这一规律与具体任务无关(task-agnostic)。基于这一洞察,V²Drop以变化量为核心评估信号,构建了一套轻量、渐进、与高效算子完全兼容的Token压缩框架——无需修改模型权重,无需访问注意力矩阵,即插即用。在图像与视频理解两条赛道上均实现当前最优的性能与效率权衡。更多关于大模型优化的前沿技术与实践,欢迎在云栈社区交流探讨。




上一篇:ThinkAct VLA模型:基于MLLM双系统架构,实现机器人长程规划与自主纠正
下一篇:AI黑产GEO技术揭秘:如何用伪共识污染大模型信源?
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-21 08:30 , Processed in 0.515672 second(s), 42 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表