近年来,基于观测数据的因果推断在补贴定价等领域得到了广泛应用。其核心目标是评估不同处理变量(Treatment,例如优惠券金额)对结果变量(Outcome,例如GMV)所能带来的处理效应,进而基于效应大小选择最优的处理策略。在网约车等复杂市场中,我们常常需要区分短期处理效应和长期处理效应:
- 针对短期处理效应,已有许多成熟模型,如DML、GRF、CFR等。
- 针对长期处理效应,现有方法难以直接应用于复杂的商业环境。因为这些方法通常依赖二元策略变量或不存在未观测混淆变量等理想假设来估计长期平均处理效应。然而,真实市场环境往往违背这些假设,且平均层面的效应不足以支持精细化的个性化决策。
本文旨在解决一个更具普遍性的问题:在考虑连续处理变量和存在未观测混淆变量的情况下,如何估计长期异质性剂量-响应曲线。这代表了因果推断与机器学习算法在复杂商业场景中应用的前沿挑战。
问题与挑战
估计长期异质性剂量-响应曲线主要面临两大挑战:
- 目标估计量的可识别性问题:长期历史观测数据中存在未观测的混淆变量,破坏了可识别性假设。解决方案是引入短期随机试验数据,通过数据融合来消除未观测混淆的影响。
- 反事实估计的泛化误差问题:连续处理变量导致反事实空间巨大,仅基于观测到的事实数据训练的模型,难以有效泛化到未观察到的反事实情况。需要推导出该场景下的泛化误差界限,并据此设计稳健的估计器。
理论框架与模型设计
为解决上述挑战,我们提出了一个融合最优传输与平衡表征学习的理论框架,并据此构建了LEARN模型。
挑战一:基于最优传输权重的可识别性
首先,我们从理论上证明,可以通过为观测数据样本学习一组权重,使得重加权后的分布在给定混淆变量X和处理A的条件下,短期结果S的分布与实验数据对齐,从而间接消除未观测混淆U的影响,实现长期效应估计量的可识别。
直接求解对应的条件最优传输问题计算成本高昂。我们通过理论推导,将其转化为优化一个更易处理的上界,即联合分布的最优传输距离。为了进一步提升计算效率并与深度学习框架兼容,我们采用了小批量最优传输方法。该方法在每次迭代中仅计算一个小批量观测数据与全量实验数据之间的传输距离,显著降低了计算复杂度。
挑战二:基于平衡表征的反事实误差控制
在通过加权解决了未观测混淆后,可观测混淆X与处理A之间的相关性仍可能导致反事实预测误差。我们推导了在重加权分布下的反事实预测误差泛化上界。该上界表明,误差由事实数据上的拟合误差加上一个衡量处理A与表征Z相关性的积分概率度量项构成。这启发我们引入平衡表征学习,通过表征学习技术使学到的表征Z与处理变量A尽可能独立,从而最小化该IPM项,控制反事实误差。
LEARN模型结构
基于上述理论,我们设计了LEARN模型,其包含三个核心模块:
- OT加权模块:基于小批量最优传输为观测数据样本计算权重,用于消除未观测混淆偏差。
- 平衡表征模块:学习一个与处理变量A独立的平衡表征Z,用于消除可观测混淆偏差。
- 长期估计模块:基于平衡表征Z、处理变量A和短期结果序列S,预测长期结果Y。该模块借鉴了处理序列数据的网络结构(如GRU),并采用注意力机制和变系数网络,使其能够适应连续处理变量的场景。
模型的整体损失函数综合了加权后的长期结果预测误差、平衡表征的正则化项以及短期结果的辅助预测损失。
实验评估
模拟数据实验
我们在合成及半合成数据集上验证了LEARN的有效性。评估指标为测试集上估计的剂量-响应曲线与真实曲线之间的均方积分误差。实验结果表明,LEARN在多个数据集上均显著优于基线方法。进一步的消融实验证实,OT加权模块和平衡表征模块分别有效消除了约70%的未观测混淆偏差和超过83%的可观测混淆偏差。
真实数据应用
该模型已在滴滴的真实网约车定价场景中得到验证。通过将长期效应估计纳入策略优化,实验表明新模型在提升司乘长期留存方面效果显著,并在GMV、订单呼叫量等核心长期指标上取得了正向收益。
总结
本文系统性地解决了在连续处理变量和存在未观测混淆变量的场景下,通过融合观察数据与实验数据来估计长期异质性剂量-响应曲线的难题。我们提出的理论框架创新性地结合了最优传输与平衡表征学习,分别用于解决未观测混淆和可观测混淆带来的偏差。基于此设计的LEARN模型在模拟实验和真实业务场景中均展现了优越的性能。这一工作为在更符合现实条件的复杂环境中进行精准因果推断提供了新的思路和工具。
|