云栈社区»论坛 › 站务中心「 Forum Service 」 › FMVR技术解析：如何给LLaVA大模型高效“瘦身”，1个视觉令牌也能 ...

5475 积分	0 好友	759 主题

发消息

FMVR技术解析：如何给LLaVA大模型高效“瘦身”，1个视觉令牌也能精准识图

发表于 2026-3-15 06:47:13 | 查看: 83| 回复: 0

多模态大模型（LMM）确实好用，但背后视觉令牌过多导致的推理慢、内存占用大一直是老大难问题。最近，Case Western Reserve大学的研究者提出了一种名为FMVR的创新方法，思路巧妙且实现简单，仿佛为臃肿的模型进行了一次成功的“抽脂手术”。

原论文信息如下：

论文标题： Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models
发表日期： 2026年03月
发表单位： Case Western Reserve University
原文链接： https://arxiv.org/pdf/2603.11220v1.pdf
开源代码链接： 论文中提及“The code will be open.”，但链接暂未提供。

当你的多模态大模型对着图片“指点江山”时，它真的清晰地“看”到了画面吗？还是说，它只是在处理一堆密密麻麻、让计算卡顿的“视觉令牌”？今天，我们就来聊聊如何为这些模型高效“瘦身”，让它们既能跑得快，又能看得清。

视觉令牌太多？推理慢如蜗牛！

现今流行的多模态大模型，比如大家熟知的LLaVA，理解图片的过程可以简化为两步：首先，视觉编码器（如 CLIP）将图片切分成小块，编码成“视觉令牌”；然后，将这些令牌连同文字问题一起输入大语言模型进行理解并生成答案。

问题就出在第一步。一张 336x336 像素的图片，LLaVA 会将其转换为 576 个视觉令牌。这听起来不多？但要知道，LLM 处理输入序列时的计算复杂度和内存消耗是随序列长度 指数级增长 的。这 576 个令牌已经足以让推理速度变得迟缓。

若换成高清大图或一段视频，视觉令牌数量更会爆炸式增长到几千甚至上万。想象一下实时交互或移动端部署的场景，这种计算负担和延迟，无论对成本还是用户体验都是巨大挑战。

因此，为视觉令牌“瘦身”势在必行。此前的研究者尝试过多种方法，例如用固定查询总结图片信息，或根据重要性对令牌进行排序和丢弃。

但这些方法有一个共同缺陷：一旦压缩，令牌数量就固定不变，无法根据可用算力弹性调整。后来，研究者引入了“套娃”表示学习，训练模型能够处理从少到多不同档位的令牌数量，实现了弹性。

然而，弹性问题解决了，新问题随之而来：令牌数量大幅减少后，图片的细节信息严重丢失！ 模型变得“眼拙”，回答也开始出现幻觉。

压缩令牌丢细节？Grad-CAM揭示视觉语义流失

单纯说细节丢失可能有些抽象。论文作者利用 Grad-CAM 技术将这一现象“可视化”了出来。Grad-CAM 能生成热力图，直观展示模型在回答问题时，其“注意力”主要集中在图片的哪些区域。

Grad-CAM可视化：576个令牌（左）与36个令牌（右）注意力对比

图：Grad-CAM可视化（576和36个视觉令牌）显示，减少视觉令牌会导致视觉注意力明显退化。

观察上图左侧，当模型使用 576 个令牌（全量）观察这张户外场景图时，热力图（红色区域）密集且精准地覆盖了咖啡杯、蛋糕、背包等关键物体，模型“眼中有物”。

再看右侧，当令牌数锐减至仅 36 个时，热力图变得稀疏、分散，甚至转移到了无关背景上。模型仿佛成了“睁眼瞎”，丢失了大量细节，注意力无处安放。

这清晰地解释了为何令牌减少后，模型在回答“图片里有什么”这类问题时容易出错——因为它根本没“看到”那些关键物体。

原来症结在此！那该怎么办？总不能为了效率而彻底牺牲精度吧。于是，本文的核心思想应运而生：我们不仅要压缩令牌，还要设法从这些被压缩的、信息残缺的令牌中，把丢失的视觉语义“恢复”出来！

妙招：频率调制视觉恢复（FMVR）

论文提出了名为 FMVR 的方法，全称是 频率调制视觉恢复。名字听起来很高大上，但其原理相当巧妙。

想象一下，将一张高清图片压缩成马赛克（令牌减少），丢失了大量细节。FMVR 就像一个智能“修复工具”，它不满足于马赛克本身，而是对这个压缩后的特征进行 “频率分析”。

在信号处理中，任何信息都可分解为低频（变化平缓的部分，如图像的整体轮廓、背景）和高频（变化剧烈的部分，如图像的边缘、纹理、细节）。压缩令牌时，最容易丢失的正是高频细节。

FMVR 所做的，就是从剩余的马赛克（压缩令牌）中，重新分离出“疑似”的低频和高频信息，然后用轻量级的、可学习的参数去调制（增强或抑制）它们，再将调整后的信息融合回去，让这些压缩后的特征显得“细节更丰富”。

这个FMVR模块被嵌入到前述的“套娃”学习框架中，构成了 FMVR-LLaVA。其整体架构一目了然：

FMVR-LLaVA整体架构图

图：FMVR-LLaVA整体架构图。FMVR被注入到MRL中，用于在构建“套娃”式嵌套视觉令牌时，增强每一组令牌的视觉语义。

如图所示：原始图像经过视觉编码器（如CLIP），先得到 576 个令牌。随后通过一系列 2x2池化 操作，像金字塔一样逐步生成 144、36、9、1 个令牌，形成一个“套娃”集合。

关键之处在于：在每一次池化（令牌数量减少）之后，都会经过一个 FMVR 模块，对压缩后的令牌进行“语义恢复”。这样，每一档数量的令牌都得到了增强，再一同用于训练 LLM。在推理时，你可以根据实际算力，灵活选择使用 144 个、36 个甚至更少的令牌，同时性能更有保障。

原理拆解：AvgPool抓全局，MaxPool补细节

FMVR 的核心在于如何进行“频率分解”。论文采用了一种 双保险设计，包含两个并行的单元：AvgPool单元 和 MaxPool单元。

AvgPool单元：增强显著性语义

其思路如下：对压缩后的特征图 X 进行一次 平均池化。平均池化会“模糊”细节、保留整体趋势，因此其结果 $X_A^l$ 可被视为 低频分量（整体轮廓）。

那么，用原始特征 X 减去这个低频分量，得到的就是 高频残差 $X_A^h$，它代表了那些被平均池化“平滑掉”的细节和边缘。

$X_A^h = X - X_A^l$, $X_A^l = AP(X)$

AvgPool单元分解公式

接着，用一个可学习的参数 $W_A^h$ 去调制这个高频分量，得到增强后的高频 $\hat{X}_A^h$。然后，巧妙的一步来了：将这个高频分量 本身作为一个注意力图，与原始特征 X 进行点乘，从而 激活那些细节丰富的区域。最后，将增强的高频和注意力加权后的特征相加，得到 AvgPool 单元的输出。

$\hat{X}_A = \hat{X}_A^h + X_A^h \cdot X$

AvgPool单元增强公式

MaxPool单元：增强非显著性语义

只增强显著细节足够吗？可能不够。如果图片中存在一个特别醒目的大物体（例如画面中心的一头大象），AvgPool 单元可能会将所有注意力都集中于此，导致旁边的小鸟、花朵等“非显著”物体被忽略。

因此，需要 MaxPool单元 来扮演“补充者”的角色。最大池化 会保留局部最突出的特征，因此其结果 $X_M^h$ 可被视为 高频分量（最显著的部分）。

那么，用原始特征 X 减去这个“最显著”的高频，得到的就是 低频残差 $X_M^l$，它代表了那些 被“最强特征”所掩盖的、相对较弱的信息。

$X_M^l = X - X_M^h$, $X_M^h = MP(X)$

MaxPool单元分解公式

同样地，使用可学习参数调制这个低频分量，并将其作为注意力图去激活原始特征中被抑制的区域。这样一来，“红花”旁的“绿叶”也能被注意到了。

最后，将 AvgPool 单元和 MaxPool 单元的输出相加，就得到了经过 FMVR 恢复后的、语义更丰富的视觉特征。

这个设计非常精妙！它仅使用两种最基础的池化操作，通过“原始特征减去池化结果”这种简单的差分，就模拟出了频率分解的效果。一个负责把握大局、提升细节（AvgPool），一个负责弥补短板、关注弱项（MaxPool），双管齐下，构成了视觉语义恢复的“双保险”。

效果如何？精度几乎无损，速度提升数倍

理论听起来很美好，那么实际效果如何？论文在 10 个主流的图像理解基准上进行了全面测试。我们直接看最核心的对比结果：

在10个图像基准上的性能对比（基于LLaVA-1.5-7B）

表：在10个图像基准上的性能对比（基于LLaVA-1.5-7B）。‘#视觉令牌’是视觉令牌数量。最后一行是与原始LLaVA的对比变化。

观察“Avg.(%)”平均性能这一列，重点对比：

惊人发现一： 原始的 LLaVA-1.5 使用 576 个令牌，平均性能为 63.0%。而 FMVR-LLaVA 仅使用 144 个令牌（减少了75%），平均性能竟达到了 63.8%，反超了0.8个百分点！这堪称“减肥”后反而变强了。
惊人发现二： 即使将令牌数大幅削减至仅 36 个（减少了94%），FMVR-LLaVA 的平均性能仍保持在 62.9%。这个成绩 超过了表格中所有其他视觉令牌削减方法（它们的令牌数通常在128或192个）。

再看具体的效率提升，数据更为震撼：

不同视觉令牌数量下的效率分析（基于LLaVA-1.5-7B）

表：不同视觉令牌数量下的效率分析（基于LLaVA-1.5-7B）

当令牌数从 576 个减少到 36 个时：

计算量： 从 8.0 TB 降至 0.9 TB，减少了 89%！
内存占用： 从 21.6 GB 降至 13.8 GB。
平均性能： 几乎保持不变，仅从 63.0% 微降至 62.9%。

下面的折线图更直观地展示了在不同令牌数量下，FMVR 相比其他“套娃”方法的优势：

在不同视觉令牌数量下的性能对比折线图

图：在不同视觉令牌数量下的对比。本方法在多种基准上取得了比M3和MQT-LLaVA更高的准确率。

图中四条曲线，代表 FMVR 的紫色实线在大部分令牌数量下都处于最高位置。这说明 FMVR 的语义恢复能力，确实让模型在令牌稀缺时表现更加稳健。

再看 Grad-CAM 的可视化对比，效果立竿见影：

有/无FMVR的Grad-CAM可视化和回答对比（36个视觉令牌）

图：有/无FMVR的Grad-CAM可视化和回答对比（36个视觉令牌）。

左侧是没有 FMVR 的模型，使用 36 个令牌观察一张室内场景图。热力图散乱，模型回答错误地声称看到了“a bed”（一张床）。
右侧是加入了 FMVR 的模型，同样使用 36 个令牌。热力图明显更集中在了沙发、餐桌、电视等实际物体上，回答也正确了。FMVR 让模型“重见光明”。

不止于图像：视频、高分辨率通吃

FMVR 的潜力不止于此。对于 高分辨率图像，令牌膨胀问题更为严重。论文在 LLaVA-NeXT（支持更高分辨率）上进行了测试：

在LLaVA-NeXT-7B上的性能对比（高分辨率，10个图像基准）

表：在LLaVA-NeXT-7B上的性能对比（高分辨率，10个图像基准）

原始 LLaVA-NeXT 使用 2880 个令牌（高分辨率），平均性能为 65.2%。FMVR-LLaVA 仅使用 720 个令牌（减少75%），就达到了 65.0%，几乎无差别！甚至仅使用 5 个令牌 的 FMVR，其性能也远超其他一些令牌削减方法。

对于 视频理解，帧数增多会导致令牌数量海量增长。论文在 4 个视频问答基准上进行了测试：

在LLaVA-NeXT-7B上的性能对比（4个视频基准）

表：在LLaVA-NeXT-7B上的性能对比（4个视频基准）

FMVR-LLaVA 使用 180 个令牌（相比基线大幅减少），在视频问答平均准确率上，比一个强劲的基线方法 Video-LLaVA 高出 5.1 个百分点（63.5% vs. 58.4%）。这证明了 FMVR 在时序信息压缩上同样有效。

纵观一系列实验，FMVR 这种“抽脂增肌”的效果确实显著。它以极低的额外计算成本（FMVR 模块本身的 FLOPs 几乎可忽略不计），换来了在弹性令牌压缩下 惊人的精度保持和全面的效率提升。

技术概念解读

为了帮助大家更好地理解，这里解答几个可能存在的疑问：

1. 视觉令牌到底是什么？
可以将其想象成图片的“单词”。大语言模型原本是处理文本单词的。为了让 LLM 能“看懂”图片，需要先将图片转换成它熟悉的格式。视觉编码器（如 CLIP）把图片切分成许多小块，每一块经过编码变成一个向量，这个向量就是一个“视觉令牌”。LLM 就像阅读句子一样，按顺序“阅读”这些视觉令牌，结合文字问题来理解图片内容。

2. 频率调制在这里具体指什么？
这里的“频率”借用了信号处理的概念。简单来说，图像中变化平缓的部分（如大块色块、天空）是低频，变化剧烈的部分（如边缘、纹理）是高频。FMVR 并非进行真正的傅里叶变换，而是利用 AvgPool 和 MaxPool 这两种池化操作及其残差，来模拟和分离特征图中的低频与高频成分。“调制”则是用可学习的参数去调整这些分离出的成分的强度，该加强的加强（如丢失的细节），该抑制的抑制（如过于突出的物体），最后再融合回去，达到恢复和增强语义的目的。

3. 为什么FMVR看似简单却如此有效？
它的有效性建立在两个深刻的洞见之上：1) 令牌压缩的核心损失是高频细节，这通过 Grad-CAM 可视化得到了证实。2) 基础的池化操作是分离频率信息的有效代理。AvgPool 趋向于平滑（产生低频），其残差自然包含高频；MaxPool 趋向于抓取最显著特征（一种特殊高频），其残差则偏向被忽略的非显著信息（一种特殊低频）。通过这种巧妙的“差分”设计，再用轻量的可学习参数进行自适应调制，就能以极小的成本实现显著的语义恢复。方法简单，却直击要害。

总结与展望

这项研究为解决多模态大模型部署中的核心效率瓶颈——视觉令牌爆炸——提供了一个新颖、有效且通用的思路。FMVR 作为一种即插即用的语义恢复模块，其“频率调制”的思想很可能启发其他模态压缩或特征增强任务。

对于希望在保持模型精度的同时大幅提升推理效率的开发者而言，这项工作无疑提供了宝贵的开源实战参考。当相关代码开源后，将其集成到现有的多模态框架中将具有很高的实践价值。

本文仅代表个人理解及观点，不构成任何论文审核或者项目落地推荐意见，具体以相关组织评审结果为准。欢迎就论文内容交流探讨。想了解更多技术实现细节，可以访问云栈社区的人工智能版块进行深入交流。

参考文献：
Qingtao Pan, Zhihao Dou, Shuo Li. Frequency-Modulated Visual Restoration for Matryoshka Large Multimodal Models. arXiv preprint arXiv:2603.11220v1 (2026).

上一篇：我用OpenClaw搭建“一人公司”，让小龙虾都能经营茶叶店
下一篇：Java多线程虚假唤醒面试复盘：从if到while的防御逻辑拆解

LLaVA, FMVR, 多模态大模型, 模型压缩, 视觉语言模型