在真实的工业级推荐场景中,用户的兴趣偏好会随时间不断迁移。为了让模型适应这种数据分布的变化,我们需要进行持续学习,即在每日新增的流式数据上进行训练。理想情况下,模型在“见识过”足够多的数据后,应能准确预测用户行为。但现实往往是:模型在当日训练集上的AUC持续走高,用于预测次日数据时效果却会断崖式下跌,仿佛在不断“过拟合”每一天的数据。此外,电商大促等事件引发的剧烈数据分布“地震”,也常导致模型在关键时段表现不佳。
为什么推荐模型在持续学习中会“失忆”?如何让模型从持续变化的数据中捕捉真正有效的用户偏好信息?针对这一核心问题,一项研究深入分析了工业级推荐系统数据分布迁移的模式,并提出了一种与模型架构无关的通用学习框架——ELBO_TDS(面向时间分布偏移的证据下界目标)。

该研究首先从真实场景的数据分析出发,重新解读了推荐系统中用户交互数据的“生成过程”。在此基础上,提出了一种ELBO建模目标,巧妙地将旨在增强表征时间鲁棒性的自监督学习,与训练模型个性化能力的监督学习,统一在一个因果学习框架内,为推荐系统的持续学习乃至终身学习提供了新思路。
1. 时间维度分布迁移分析:重塑推荐系统数据认知
推荐数据在时间维度上的分布漂移会严重阻碍模型的稳定学习。在电商等频繁促销的场景下,模型的训练曲线常如“过山车”般剧烈波动。要解决问题,必须先理解其本质。
研究对一段周期内的训练数据进行了深入分析,并将部分结果可视化:

推荐模型的训练数据本质上是用户行为与各类特征的记录。特征工程中最常用的特征可归为三类:统计特征、类别特征和序列特征。分析发现:
- 统计特征(如商品近3天CTR)的变异系数(CV)分布呈单峰。这表明该特征数值在绝大多数情况下是“有界”的,仅在极低概率下会产生远离均值的异常值。
- 序列特征中,与目标商品相关的物品数量(如swing图中共现关系)的CV分布同样呈左偏单峰。
- 类别特征(如商品ID、用户ID)的分布在连续多天内的Jensen-Shannon散度(JSD)值增长缓慢。例如,商品ID在相邻两天的JSD约为0.53,但从第0天到第13天的累积JSD仅增长至0.59。
分析表明,任何一种特征的数值或分布在日级切换时都存在明显波动(CV值在2~4之间),但从长周期看,这种波动的烈度又是相对稳定的(CV单峰、JSD缓慢增长)。
这类似于一种“超级反复横跳”的现象。那么,数据为何会“反复横跳”?这个过程中相对稳定的“均值”又代表了什么?
研究认为,参与推荐系统的用户和物品都具有两面性。一方面是稳定因素(S),代表对象的内核与本质属性,如商品的质量、功能,或用户的年龄、长期偏好(相对稳定)。另一方面是波动因素(V),代表对象的表象或受外界影响的观测值,如商品的瞬时销量、用户受社交媒体影响的即时兴趣。
为了方便建模,方法引入了隐变量Z。在这一视角下,数据的生成过程或因果关系是:稳定因素S和波动因素V共同影响隐变量Z(S -> Z, V -> Z),再由Z生成我们观测到的特征X和标签Y(Z -> X, Z -> Y)。因此,模型的目标是捕捉Z的分布,从而更好地建模X和Y的联合分布。这一思路更接近“生成式建模”的本质。

2. 方法论:从ELBO推导出自监督与监督学习的联合框架
基于上述观察,研究提出了稳态 波动假设,并希望模型在建模联合分布时能过滤掉波动因素V的干扰,从而实现更稳定的预测。由此,推导出以下证据下界(ELBO)目标:

该ELBO目标包含四项:
- 重构项:从隐变量Z重构样本特征X。
- 熵约束项:约束隐变量Z的方差,防止表征坍塌。
- 预测项:从隐变量Z预测标签Y,完成监督学习任务。
- 先验约束项:使隐变量Z尽可能只与稳定因素S相关,从而增强表征应对时间分布偏移的鲁棒性。
优化该目标,模型可获得一种“全能表征”Z:既能保留重构X所需的信息,又包含对下游预测任务有效的信号,同时还排斥了与波动因素V相关的噪声。具体训练框架如下图所示:

3. 多视图数据增强策略
模型输入需要包含带波动因素V的数据样本。直接从历史数据中构造此类样本耗时耗力,且易引发“One-Epoch过拟合”问题(即模型在同一天数据上训练超过一个epoch就容易过拟合,导致预测未来数据时AUC下降)。
为避免此问题,研究提出了在线增强策略,针对不同特征类型进行实时扰动:
- 统计特征:将分桶后的桶号随机扰动到邻近桶。
- 类别特征:进行随机替换或置零掩码。
- 序列特征:对序列中的物品进行随机掩码。
上述操作可多次随机执行,为单一样本生成多个“视图”,类似于计算机视觉中随机裁剪、旋转等数据增强操作。此过程无需历史数据,训练成本几乎可忽略。
4. 实验数据与结果分析
研究在公开数据集和工业级数据上进行了验证。由于时间分布偏移(TDS)领域可对比的方法较少,实验将传统的经验风险最小化(ERM)、基于对比学习的自监督方法、图像预训练领域适配的Dino,以及最相关的不变性学习(IRM)方法均纳入基线对比。

主要结论如下:
- 有效性:ELBO_TDS框架在所有数据集和对比基线中均取得了显著提升,证明其能有效滤除与时间迁移相关的数据噪声,更好地捕捉用户核心偏好。
- 泛化性:ELBO_TDS在视频、电商两类模态数据上均有效,说明TDS问题广泛存在于各类推荐场景中。
- 问题独特性:传统的IRM类方法效果甚至不如增量训练的ERM,表明TDS并非经典的协变量偏移问题,需要新的解决方案。

从增量训练的效果曲线可见,ERM、自监督及ELBO_TDS都随时间推移效果变好,而IRM类方法则越训越差。这是因为IRM假设存在绝对不变的“内核”,并需要重复访问历史数据分区,这与推荐场景中用户偏好允许缓慢迁移的实际情况不符,且易触发“One-Epoch过拟合”。
ELBO_TDS的另一大优势是对大促等剧烈数据分布变化不敏感:
基线ERM方法即使切换至小时级更新,仍在大促前后出现AUC断崖式下跌。而ELBO_TDS的效果几乎无损,在最终的两周实验中带来了2.33%的GMV/User提升。
论文与代码: