云栈社区»论坛 › 技术文档「 Note & Doc 」 › 多模态推荐新范式：基于结构化频谱推理SSR框架突破图神经网络瓶 ...

发回帖发新帖

3274 积分	1 好友	451 主题

发消息

多模态推荐新范式：基于结构化频谱推理SSR框架突破图神经网络瓶颈

发表于 2025-12-20 00:43:32 | 查看: 79| 回复: 0

多模态推荐通过融合图像、文本等丰富信息，旨在为用户提供更精准的服务。然而，模态噪声、语义鸿沟等问题长期困扰着模型性能。快手商业化算法团队联合USC与人大提出的SSR框架，创新性地将频域分析引入图神经网络，实现了从“混合”到“结构化推理”的范式转变，为多模态推荐带来了可解释、可调控的新思路。该工作已被NeurIPS 2025接收。

[🔮论文链接]：https://arxiv.org/pdf/2512.01372

一、为何要引入频域？—— 问题与动机

1.1 多模态推荐的三大核心挑战

模态特定噪声：每个模态都掺杂着无关语义的“杂质”，如电商图片中精美的背景、文本中夸张的营销话术，这些噪声会误导模型学习虚假模式。
语义不一致性：不同模态可能从不同侧面描述物品。例如，耳机图片突出“外观设计”，文本强调“降噪性能”，如何协调形成统一表示是一大难题。
图传播污染：在基于图神经网络的推荐系统中，上述噪声会通过邻居聚合操作在交互图中扩散，污染整个图的节点表示，即“噪声放大”效应。

1.2 现有方法的局限与频谱视角的启示

传统方法多在原始特征空间进行“蛮力”融合，如同在嘈杂房间中辨音，效果有限。频域分析为此提供了新视角：任何复杂信号均可分解为不同频率分量。

低频分量：对应平缓、全局的信号，如用户的长期兴趣、物品的基础类别。
高频分量：对应快速变化、局部的细节，可能包含关键特征，但也包含大量噪声。

现有基于频域的方法（如SMORE）尝试通过静态滤波（如保留低频、过滤高频）去噪，但存在明显缺陷：假设过于简化（并非所有高频都是噪声）、缺乏适应性、且未建模频带间复杂交互。

1.3 SSR的核心动机：从“过滤”到“结构化推理”

SSR实现了一个根本性转变：将频域提升为结构化的表示与推理空间。其核心是，将混杂的多模态图信号分解到不同语义粒度的频带中，然后在该空间内进行自适应调制、智能融合与语义对齐，使模型能主动“思考”如何组合不同粒度的信息。

二、SSR框架详解：四阶段推理管道

SSR的整体架构是一个清晰的四阶段流程：

2.1 第一阶段：分解 —— 基于能量均衡的频谱划分

目标：将原始图信号分离到不同语义粒度的频带中。

图傅里叶变换：对用户-物品二分图进行变换，将节点特征从空间域映射到频率域。
能量均衡频带构建（创新点1）：不同于均匀分割，SSR根据频率成分的能量进行划分，确保每个频带承载大致相等的信息量，避免弱频带被忽略。
频带重建与初步融合：对每个频带进行逆变换，得到空间域表示，并为每个节点学习各频带的自适应权重，进行初步加权融合。

输出：M个聚焦于不同语义粒度的频带表示。

2.2 第二阶段：调制 —— 频谱带掩码提升鲁棒性

目标：防止模型过度依赖不稳定频带（如易过拟合的高频噪声），鼓励综合利用所有可靠频谱。
方法：频谱带掩码（创新点2），一种结构化正则化技术。

训练时：随机生成二进制掩码，以概率p将整个频带置零丢弃。
一致性约束：强制模型对完整频谱和掩码后频谱产生相似预测，其损失函数为：
核心作用：惩罚对单一频带的依赖，迫使模型学习“冗余”表示，提高面对噪声和分布外数据时的稳定性。
推理时：无掩码，零额外开销。

2.3 第三阶段：融合 —— 图超频谱神经网络算子

目标：显式建模不同频带间复杂的高阶交互。
方法：图超频谱神经网络算子（G-HSNO，核心创新点）。

全交互设计：输出频带的表示由所有输入频带共同决定，构建一个M×M的“频带交互网络”。
低秩分解解决参数爆炸：直接实现参数量巨大（O(M²d²)）。SSR采用CP张量分解，将大参数矩阵分解为三个小矩阵组合，参数量降至O(Mdr)。
图感知门控：在G-HSNO输出上施加门控机制，融入图拓扑信息，实现自适应调节。

2.4 第四阶段：对齐 —— 频谱对比正则化

目标：确保同一物品在不同模态下，相同频带内语义一致。
方法：频谱对比正则化（创新点3）。

正样本：同一物品、同一频带下的图像与文本表示。
负样本：同频带内不同物品（模态内负样本） + 任何不同频带的物品（跨频带负样本）。
损失函数：采用InfoNCE对比损失。

最终目标函数结合了推荐任务的主损失以及调制、对齐的约束损失：

三、实验结果

3.1 整体性能领先

在Amazon Baby, Sports, Clothing三个真实数据集上，SSR全面超越了包括多模态基线和图神经网络基线在内的众多SOTA模型。

3.2 冷启动场景优势显著

对于交互历史极少（≤5次）的冷启动用户，SSR的优势更加明显。这表明其频谱分解能有效从内容中提取稳定、全局的低频语义和具有判别力的中频语义，抑制噪声，展现出强大的从内容挖掘用户偏好的能力，这对于解决推荐系统的冷启动难题具有重要意义。

四、总结与展望

SSR框架代表了多模态推荐从“特征混合”到“频谱推理”的范式转移。它通过能量均衡分解、频谱带掩码、G-HSNO融合算子及频谱对比对齐，系统性地解决了噪声、交互与对齐问题。

基于此范式，未来方向包括：

与大型模型结合：利用LLM/VLM的语义理解能力指导频谱分解或解释频带语义。
高效频谱基学习：探索端到端方式构建频谱基，以应用于十亿级大图。
扩展到动态推荐：将频谱推理引入时序模型，捕捉用户兴趣频谱的演化规律。这类时序模式的建模也离不开对底层算法结构的深刻理解与创新。

上一篇：《嘟嘟脸恶作剧》二次元游戏分析：UGC社区驱动与长线用户留存策略
下一篇：基于DeepSeek OCR与MIT开源：专业扫描版PDF转换工具PDF Craft详解

SSR, 图神经网络, 推荐系统, NeurIPS, 对比学习

相关帖子

收藏0 回复显示全部楼层举报

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-2-8 01:29 , Processed in 0.331424 second(s), 41 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表