找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

1709

积分

1

好友

242

主题
发表于 4 天前 | 查看: 11| 回复: 0

多模态推荐通过融合图像、文本等丰富信息,旨在为用户提供更精准的服务。然而,模态噪声、语义鸿沟等问题长期困扰着模型性能。快手商业化算法团队联合USC与人大提出的SSR框架,创新性地将频域分析引入图神经网络,实现了从“混合”到“结构化推理”的范式转变,为多模态推荐带来了可解释、可调控的新思路。该工作已被NeurIPS 2025接收。

[🔮论文链接]:https://arxiv.org/pdf/2512.01372

一、为何要引入频域?—— 问题与动机

1.1 多模态推荐的三大核心挑战
  1. 模态特定噪声:每个模态都掺杂着无关语义的“杂质”,如电商图片中精美的背景、文本中夸张的营销话术,这些噪声会误导模型学习虚假模式。
  2. 语义不一致性:不同模态可能从不同侧面描述物品。例如,耳机图片突出“外观设计”,文本强调“降噪性能”,如何协调形成统一表示是一大难题。
  3. 图传播污染:在基于图神经网络的推荐系统中,上述噪声会通过邻居聚合操作在交互图中扩散,污染整个图的节点表示,即“噪声放大”效应。
1.2 现有方法的局限与频谱视角的启示

传统方法多在原始特征空间进行“蛮力”融合,如同在嘈杂房间中辨音,效果有限。频域分析为此提供了新视角:任何复杂信号均可分解为不同频率分量。

  • 低频分量:对应平缓、全局的信号,如用户的长期兴趣、物品的基础类别。
  • 高频分量:对应快速变化、局部的细节,可能包含关键特征,但也包含大量噪声。

现有基于频域的方法(如SMORE)尝试通过静态滤波(如保留低频、过滤高频)去噪,但存在明显缺陷:假设过于简化(并非所有高频都是噪声)、缺乏适应性、且未建模频带间复杂交互。

1.3 SSR的核心动机:从“过滤”到“结构化推理”

SSR实现了一个根本性转变:将频域提升为结构化的表示与推理空间。其核心是,将混杂的多模态图信号分解到不同语义粒度的频带中,然后在该空间内进行自适应调制、智能融合与语义对齐,使模型能主动“思考”如何组合不同粒度的信息。

二、SSR框架详解:四阶段推理管道

SSR的整体架构是一个清晰的四阶段流程:

图片

2.1 第一阶段:分解 —— 基于能量均衡的频谱划分

目标:将原始图信号分离到不同语义粒度的频带中。

  1. 图傅里叶变换:对用户-物品二分图进行变换,将节点特征从空间域映射到频率域。
  2. 能量均衡频带构建(创新点1):不同于均匀分割,SSR根据频率成分的能量进行划分,确保每个频带承载大致相等的信息量,避免弱频带被忽略。
    图片
  3. 频带重建与初步融合:对每个频带进行逆变换,得到空间域表示,并为每个节点学习各频带的自适应权重,进行初步加权融合。

输出M个聚焦于不同语义粒度的频带表示。

2.2 第二阶段:调制 —— 频谱带掩码提升鲁棒性

目标:防止模型过度依赖不稳定频带(如易过拟合的高频噪声),鼓励综合利用所有可靠频谱。
方法:频谱带掩码(创新点2),一种结构化正则化技术。

  • 训练时:随机生成二进制掩码,以概率p将整个频带置零丢弃。
  • 一致性约束:强制模型对完整频谱和掩码后频谱产生相似预测,其损失函数为:
    图片
  • 核心作用:惩罚对单一频带的依赖,迫使模型学习“冗余”表示,提高面对噪声和分布外数据时的稳定性。
  • 推理时:无掩码,零额外开销。
2.3 第三阶段:融合 —— 图超频谱神经网络算子

目标:显式建模不同频带间复杂的高阶交互。
方法:图超频谱神经网络算子(G-HSNO,核心创新点)

  1. 全交互设计:输出频带的表示由所有输入频带共同决定,构建一个M×M的“频带交互网络”。
    图片
  2. 低秩分解解决参数爆炸:直接实现参数量巨大(O(M²d²))。SSR采用CP张量分解,将大参数矩阵分解为三个小矩阵组合,参数量降至O(Mdr)
    图片
  3. 图感知门控:在G-HSNO输出上施加门控机制,融入图拓扑信息,实现自适应调节。
2.4 第四阶段:对齐 —— 频谱对比正则化

目标:确保同一物品在不同模态下,相同频带内语义一致。
方法:频谱对比正则化(创新点3)

  • 正样本:同一物品、同一频带下的图像与文本表示。
  • 负样本:同频带内不同物品(模态内负样本) + 任何不同频带的物品(跨频带负样本)。
  • 损失函数:采用InfoNCE对比损失。

最终目标函数结合了推荐任务的主损失以及调制、对齐的约束损失:
图片

三、实验结果

图片

3.1 整体性能领先

在Amazon Baby, Sports, Clothing三个真实数据集上,SSR全面超越了包括多模态基线和图神经网络基线在内的众多SOTA模型。
图片

3.2 冷启动场景优势显著

对于交互历史极少(≤5次)的冷启动用户,SSR的优势更加明显。这表明其频谱分解能有效从内容中提取稳定、全局的低频语义和具有判别力的中频语义,抑制噪声,展现出强大的从内容挖掘用户偏好的能力,这对于解决推荐系统的冷启动难题具有重要意义。

四、总结与展望

SSR框架代表了多模态推荐从“特征混合”到“频谱推理”的范式转移。它通过能量均衡分解、频谱带掩码、G-HSNO融合算子及频谱对比对齐,系统性地解决了噪声、交互与对齐问题。

基于此范式,未来方向包括:

  1. 与大型模型结合:利用LLM/VLM的语义理解能力指导频谱分解或解释频带语义。
  2. 高效频谱基学习:探索端到端方式构建频谱基,以应用于十亿级大图。
  3. 扩展到动态推荐:将频谱推理引入时序模型,捕捉用户兴趣频谱的演化规律。这类时序模式的建模也离不开对底层算法结构的深刻理解与创新。



上一篇:《嘟嘟脸恶作剧》二次元游戏分析:UGC社区驱动与长线用户留存策略
下一篇:基于DeepSeek OCR与MIT开源:专业扫描版PDF转换工具PDF Craft详解
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2025-12-24 18:59 , Processed in 0.226413 second(s), 40 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2025 云栈社区.

快速回复 返回顶部 返回列表