2956 积分	0 好友	379 主题

发消息

腾讯HiGR：生成式一站式推荐算法实现观看时长提升1.22%

发表于 2026-1-12 17:18:56 | 查看: 68| 回复: 0

HiGR：通过分层规划与多目标偏好对齐实现高效的生成式列表推荐

论文链接：https://arxiv.org/pdf/2512.24787
发布公司：腾讯
核心思想：使用生成模型一次性生成整个推荐列表。
技术方向：生成式推荐 + Listwise排序 + 一站式推荐。

模型解读

HiGR模型旨在构建一个能够生成整个推荐列表的生成式模型，其整体流程主要由三个核心部分组成：生成语义ID、训练生成模型以及模型后训练。

1. 生成语义ID：对比残差量化VAE
针对传统RQ-VAE存在的一些问题，本文提出了对比RQ-VAE。其主要改进在于引入了批次内的对比学习机制，以提升生成的语义ID的质量。
具体做法是：对于一个语义ID在某一层的码字，将其放入同一批次内其他语义ID的同层码字中计算对比概率，并优化InfoNCE损失函数。
模型训练完成后，其参数将被固定，用于后续生成模型中的语义ID生成。

2. 生成模型架构
生成模型采用自回归方式进行下一个token预测。
模型的输入包含三部分：用户画像特征、用户历史行为序列以及一个用户正反馈序列。其中，正反馈序列是从用户交互日志中提取的正向交互序列，并按照停留时间等反馈指标降序重新排列。

上下文编码层：用户画像和行为序列通过一个Transformer编码器，生成一个嵌入序列。
粗粒度生成层：
- 输入序列由开始标记BOS和待生成推荐列表的前 M-1 个物品组成，以进行自回归预测。
- 每个物品的表征由其语义ID所有层码字的表征求和得到。
- 上下文编码层输出的嵌入序列经过线性变换后作为Key和Value。而自回归的输入序列作为Query。
- 后续进行连续的变换操作：交叉注意力、自注意力和前馈神经网络处理，并且堆叠多层。每个变换层都包含残差连接。
细粒度生成层：
- 对每个物品进行与粗粒度层类似的处理，但输入序列有所不同。此时的输入由该物品在粗粒度层的输出和其语义ID所有层的嵌入共同组成。
- 对模型的预测结果计算下一个token预测损失，以此优化模型参数。

3. 后训练与偏好对齐
使用监督对比学习进行后训练，以对齐用户的真实偏好。任务构建为二分类，需要构造偏好对：

正样本对：用户真实的交互序列（按反馈强度降序排列）。
负样本对：包含三种构造方式——随机置换（用于优化排序效果）、用负反馈物品替换（用于优化兴趣匹配）、重复锚点附加（用于优化列表多样性）。
这种多目标的负样本构造方式，确保了生成模型能够整体优化排名、用户兴趣和列表多样性等多个目标。

4. 推理预估
在推理阶段，使用训练好的生成模型，以自回归的方式预测出M个物品的语义ID。预测过程中通常采用集束搜索来平衡效果与效率。最后，通过反向查找码本，将语义ID解码为具体的物品ID。

AB测试结果：在微信视频号场景下，于2%的流量上进行AB测试，模型取得了以下提升：平均停留时间 +1.03%，观看总时长 +1.22%，视频浏览数 +1.73%，请求数 +1.57%。

补充说明：传统RQ-VAE存在的问题

ID纠缠与空间稀疏：过大的码本导致ID空间稀疏且语义纠缠，例如相同的前缀可能对应不同语义的物品（“多义词”问题），这影响了ID的可解释性和生成过程的可控性。
缺乏协同信号对齐：仅依赖重建损失和残差最小化进行优化，忽略了物品间的协同关系。相似的物品不会在语义ID的前缀上聚拢，不相似的物品也不会被推开，这削弱了模型捕捉协同过滤信号的能力。
低效的多样性控制：多样性只能在生成完成后，通过对连续嵌入进行聚合来评估，无法在量化（生成ID）的过程中直接施加逐位置的约束。

总结与思考

在推荐系统中，直接进行Listwise列表级优化的成功实践相对较少。而生成式推荐模型天然具备一次性输出多个物品的能力，这为实现Listwise优化提供了一种新颖且有效的技术路径。
论文中通过引入对比学习来改进语义ID的生成质量，是解决离散表示学习中信息损失和表达模糊问题的一次有益尝试。

注：经核查，原文指出论文中的公式（10）可能存在笔误。
模型已投入生产环境验证，具有较高的实践参考价值。

对于生成式推荐、列表优化等前沿技术话题，欢迎在云栈社区进行更深入的交流与探讨。

上一篇：Linux运维环境判断：5种方法区分物理机与虚拟机排查场景
下一篇：Plane 项目拆解：基于 Next.js + Django 的开源项目管理神器

生成式推荐, 列表推荐, 对比学习, 腾讯, A／B测试

腾讯HiGR：生成式一站式推荐算法实现观看时长提升1.22%

HiGR：通过分层规划与多目标偏好对齐实现高效的生成式列表推荐

模型解读

总结与思考

相关帖子