多模态推荐通过融合图像、文本等丰富信息,旨在为用户提供更精准的服务。然而,模态噪声、语义鸿沟等问题长期困扰着模型性能。快手商业化算法团队联合USC与人大提出的SSR框架,创新性地将频域分析引入图神经网络,实现了从“混合”到“结构化推理”的范式转变,为多模态推荐带来了可解释、可调控的新思路。该工作已被NeurIPS 2025接收。
[🔮论文链接]:https://arxiv.org/pdf/2512.01372
一、为何要引入频域?—— 问题与动机
1.1 多模态推荐的三大核心挑战
- 模态特定噪声:每个模态都掺杂着无关语义的“杂质”,如电商图片中精美的背景、文本中夸张的营销话术,这些噪声会误导模型学习虚假模式。
- 语义不一致性:不同模态可能从不同侧面描述物品。例如,耳机图片突出“外观设计”,文本强调“降噪性能”,如何协调形成统一表示是一大难题。
- 图传播污染:在基于图神经网络的推荐系统中,上述噪声会通过邻居聚合操作在交互图中扩散,污染整个图的节点表示,即“噪声放大”效应。
1.2 现有方法的局限与频谱视角的启示
传统方法多在原始特征空间进行“蛮力”融合,如同在嘈杂房间中辨音,效果有限。频域分析为此提供了新视角:任何复杂信号均可分解为不同频率分量。
- 低频分量:对应平缓、全局的信号,如用户的长期兴趣、物品的基础类别。
- 高频分量:对应快速变化、局部的细节,可能包含关键特征,但也包含大量噪声。
现有基于频域的方法(如SMORE)尝试通过静态滤波(如保留低频、过滤高频)去噪,但存在明显缺陷:假设过于简化(并非所有高频都是噪声)、缺乏适应性、且未建模频带间复杂交互。
1.3 SSR的核心动机:从“过滤”到“结构化推理”
SSR实现了一个根本性转变:将频域提升为结构化的表示与推理空间。其核心是,将混杂的多模态图信号分解到不同语义粒度的频带中,然后在该空间内进行自适应调制、智能融合与语义对齐,使模型能主动“思考”如何组合不同粒度的信息。
二、SSR框架详解:四阶段推理管道
SSR的整体架构是一个清晰的四阶段流程:

2.1 第一阶段:分解 —— 基于能量均衡的频谱划分
目标:将原始图信号分离到不同语义粒度的频带中。
- 图傅里叶变换:对用户-物品二分图进行变换,将节点特征从空间域映射到频率域。
- 能量均衡频带构建(创新点1):不同于均匀分割,SSR根据频率成分的能量进行划分,确保每个频带承载大致相等的信息量,避免弱频带被忽略。

- 频带重建与初步融合:对每个频带进行逆变换,得到空间域表示,并为每个节点学习各频带的自适应权重,进行初步加权融合。
输出:M个聚焦于不同语义粒度的频带表示。
2.2 第二阶段:调制 —— 频谱带掩码提升鲁棒性
目标:防止模型过度依赖不稳定频带(如易过拟合的高频噪声),鼓励综合利用所有可靠频谱。
方法:频谱带掩码(创新点2),一种结构化正则化技术。
- 训练时:随机生成二进制掩码,以概率
p将整个频带置零丢弃。
- 一致性约束:强制模型对完整频谱和掩码后频谱产生相似预测,其损失函数为:

- 核心作用:惩罚对单一频带的依赖,迫使模型学习“冗余”表示,提高面对噪声和分布外数据时的稳定性。
- 推理时:无掩码,零额外开销。
2.3 第三阶段:融合 —— 图超频谱神经网络算子
目标:显式建模不同频带间复杂的高阶交互。
方法:图超频谱神经网络算子(G-HSNO,核心创新点)。
- 全交互设计:输出频带的表示由所有输入频带共同决定,构建一个
M×M的“频带交互网络”。

- 低秩分解解决参数爆炸:直接实现参数量巨大(
O(M²d²))。SSR采用CP张量分解,将大参数矩阵分解为三个小矩阵组合,参数量降至O(Mdr)。

- 图感知门控:在G-HSNO输出上施加门控机制,融入图拓扑信息,实现自适应调节。
2.4 第四阶段:对齐 —— 频谱对比正则化
目标:确保同一物品在不同模态下,相同频带内语义一致。
方法:频谱对比正则化(创新点3)。
- 正样本:同一物品、同一频带下的图像与文本表示。
- 负样本:同频带内不同物品(模态内负样本) + 任何不同频带的物品(跨频带负样本)。
- 损失函数:采用InfoNCE对比损失。
最终目标函数结合了推荐任务的主损失以及调制、对齐的约束损失:

三、实验结果

3.1 整体性能领先
在Amazon Baby, Sports, Clothing三个真实数据集上,SSR全面超越了包括多模态基线和图神经网络基线在内的众多SOTA模型。

3.2 冷启动场景优势显著
对于交互历史极少(≤5次)的冷启动用户,SSR的优势更加明显。这表明其频谱分解能有效从内容中提取稳定、全局的低频语义和具有判别力的中频语义,抑制噪声,展现出强大的从内容挖掘用户偏好的能力,这对于解决推荐系统的冷启动难题具有重要意义。
四、总结与展望
SSR框架代表了多模态推荐从“特征混合”到“频谱推理”的范式转移。它通过能量均衡分解、频谱带掩码、G-HSNO融合算子及频谱对比对齐,系统性地解决了噪声、交互与对齐问题。
基于此范式,未来方向包括:
- 与大型模型结合:利用LLM/VLM的语义理解能力指导频谱分解或解释频带语义。
- 高效频谱基学习:探索端到端方式构建频谱基,以应用于十亿级大图。
- 扩展到动态推荐:将频谱推理引入时序模型,捕捉用户兴趣频谱的演化规律。这类时序模式的建模也离不开对底层算法结构的深刻理解与创新。
|