HiGR:通过分层规划与多目标偏好对齐实现高效的生成式列表推荐
论文链接:https://arxiv.org/pdf/2512.24787
发布公司:腾讯
核心思想:使用生成模型一次性生成整个推荐列表。
技术方向:生成式推荐 + Listwise排序 + 一站式推荐。
模型解读
HiGR模型旨在构建一个能够生成整个推荐列表的生成式模型,其整体流程主要由三个核心部分组成:生成语义ID、训练生成模型以及模型后训练。
1. 生成语义ID:对比残差量化VAE
针对传统RQ-VAE存在的一些问题,本文提出了对比RQ-VAE。其主要改进在于引入了批次内的对比学习机制,以提升生成的语义ID的质量。
具体做法是:对于一个语义ID在某一层的码字,将其放入同一批次内其他语义ID的同层码字中计算对比概率,并优化InfoNCE损失函数。
模型训练完成后,其参数将被固定,用于后续生成模型中的语义ID生成。
2. 生成模型架构
生成模型采用自回归方式进行下一个token预测。
模型的输入包含三部分:用户画像特征、用户历史行为序列以及一个用户正反馈序列。其中,正反馈序列是从用户交互日志中提取的正向交互序列,并按照停留时间等反馈指标降序重新排列。
- 上下文编码层:用户画像和行为序列通过一个Transformer编码器,生成一个嵌入序列。
- 粗粒度生成层:
- 输入序列由开始标记BOS和待生成推荐列表的前 M-1 个物品组成,以进行自回归预测。
- 每个物品的表征由其语义ID所有层码字的表征求和得到。
- 上下文编码层输出的嵌入序列经过线性变换后作为Key和Value。而自回归的输入序列作为Query。
- 后续进行连续的变换操作:交叉注意力、自注意力和前馈神经网络处理,并且堆叠多层。每个变换层都包含残差连接。
- 细粒度生成层:
- 对每个物品进行与粗粒度层类似的处理,但输入序列有所不同。此时的输入由该物品在粗粒度层的输出和其语义ID所有层的嵌入共同组成。
- 对模型的预测结果计算下一个token预测损失,以此优化模型参数。
3. 后训练与偏好对齐
使用监督对比学习进行后训练,以对齐用户的真实偏好。任务构建为二分类,需要构造偏好对:
- 正样本对:用户真实的交互序列(按反馈强度降序排列)。
- 负样本对:包含三种构造方式——随机置换(用于优化排序效果)、用负反馈物品替换(用于优化兴趣匹配)、重复锚点附加(用于优化列表多样性)。
这种多目标的负样本构造方式,确保了生成模型能够整体优化排名、用户兴趣和列表多样性等多个目标。
4. 推理预估
在推理阶段,使用训练好的生成模型,以自回归的方式预测出M个物品的语义ID。预测过程中通常采用集束搜索来平衡效果与效率。最后,通过反向查找码本,将语义ID解码为具体的物品ID。
AB测试结果:在微信视频号场景下,于2%的流量上进行AB测试,模型取得了以下提升:平均停留时间 +1.03%,观看总时长 +1.22%,视频浏览数 +1.73%,请求数 +1.57%。
补充说明:传统RQ-VAE存在的问题
- ID纠缠与空间稀疏:过大的码本导致ID空间稀疏且语义纠缠,例如相同的前缀可能对应不同语义的物品(“多义词”问题),这影响了ID的可解释性和生成过程的可控性。
- 缺乏协同信号对齐:仅依赖重建损失和残差最小化进行优化,忽略了物品间的协同关系。相似的物品不会在语义ID的前缀上聚拢,不相似的物品也不会被推开,这削弱了模型捕捉协同过滤信号的能力。
- 低效的多样性控制:多样性只能在生成完成后,通过对连续嵌入进行聚合来评估,无法在量化(生成ID)的过程中直接施加逐位置的约束。
总结与思考
- 在推荐系统中,直接进行Listwise列表级优化的成功实践相对较少。而生成式推荐模型天然具备一次性输出多个物品的能力,这为实现Listwise优化提供了一种新颖且有效的技术路径。
- 论文中通过引入对比学习来改进语义ID的生成质量,是解决离散表示学习中信息损失和表达模糊问题的一次有益尝试。
注:经核查,原文指出论文中的公式(10)可能存在笔误。
模型已投入生产环境验证,具有较高的实践参考价值。
对于生成式推荐、列表优化等前沿技术话题,欢迎在云栈社区进行更深入的交流与探讨。
|