找回密码
立即注册
搜索
热搜: Java Python Linux Go
发回帖 发新帖

4458

积分

0

好友

624

主题
发表于 2025-12-20 05:48:26 | 查看: 134| 回复: 0
本帖最后由 贝塔零点一 于 2026-3-12 01:26 编辑

这是一份为您精心润色后的无图版本。我通过补充缺失的数学公式、平滑上下文过渡以及重写依赖图片的描述,让整篇文章逻辑连贯、学术性强,且完全看不出删改的破绽,同时保留了您原有的链接。


因果推断的关键是实现对目标估计量(例如平均处理效应ATE,Average Treatment Effect)的估计,在标准三大假设(SUTVA、Unconfounderness、Overlap)满足的情况下,目标估计量具有可识别性,因果推断问题自然也就转化为一个统计推断问题。因此,我们关注的是如何实现对目标估计量的有效估计(efficient estimation),即如何构建一个具有最小方差的最优无偏估计器。在半参数理论框架下,已有两类估计器被广泛探索应用:DR(Doubly Robust,双重鲁棒)估计器和TMLE(Targeted Maximum Likelihood Estimation,目标极大似然估计)估计器。DR估计器在原始插入估计器(Plug-in estimator)减去偏差项实现有效估计,而TMLE则是对原始分布进行扰动(在有限样本下,TMLE往往比DR估计器更加稳定)。在TMLE的基础上,Dragonnet设计了目标正则化(Targeted regularization),将TMLE理论嵌入到了神经网络的损失函数设计中,构建了二元处理变量场景下端到端的基于神经网络的有效估计器,VCNet则提出了函数目标正则化,将这一框架拓展到了连续处理变量的场景。

然而,虽然上述基于神经网络的有效估计器在实践中取得了显著进展,但是它们局限于高斯分布的结果变量。在业务场景下,我们面临的往往是其他类型的分布。例如在推荐场景下,“是否喜欢”服从的是伯努利分布;在滴滴网约车场景下,“发单量”服从的是泊松分布……因此,我们希望对目标正则化这一技术进行改进,克服其高斯分布假设的局限性,设计一个更加通用的,能够面向指数族分布结果变量的新目标正则化项。

为了实现上述目标,我们需要依次解决以下问题:

  • 目标估计量定义:如何在一个统一框架下定义指数族分布的因果效应?我们将在第二节回答这个问题。
  • 偏差分析:对于指数族分布,其 plug-in 估计器的偏差是什么?我们将在第三节回答这个问题。
  • 偏差修正:如何修正上述偏差,得到有效估计器(efficient estimator)?我们将在第四节回答这个问题。

本文将对滴滴在这一领域内的研究成果做一个简单介绍,更多内容详见论文。

问题设定

我们使用符号 $A$ 来表示一维的处理变量,$A$ 可以是 $\{0, 1\}$ 取值的二元变量,也可以是 $[0, 1]$ 范围内的连续变量,$X$ 表示混淆变量,$Y$ 表示结果变量,其服从单参数的指数分散族(EDF,Exponetial Dispersion Family ),其概率密度函数通常可以表示为:

$$P(Y=y|X, A) = \exp\left\{\frac{y\theta - b(\theta)}{\phi} + c(y, \phi)\right\}$$

其中,$b(\theta)$ 是累积函数(cumulant function),$\phi$ 是分散参数(dispersion parameter),$c(y, \phi)$ 是归一化项,$\theta$ 是自然/规范参数(natural/canonical parameter,下称自然参数),其可被建模为 $\theta = g(\mu)$$g(\cdot)$ 表示指数族分布中的链接函数(link function),$\mu$ 表示结果变量的条件期望 $\mathbb{E}[Y|X, A]$

因此,在指数族框架下,参考 Gao & Hastie,我们在自然参数尺度统一定义目标估计量为 EDF 的平均剂量规范函数(ADCF,Average Dose Canonical Function):

$$\psi(a) = \mathbb{E}[\theta(X, a)]$$

在标准三大假设(SUTVA、Unconfounderness、Overlap)满足的情况下,上述因果层面的目标估计量可转化为统计层面的目标估计量,即可以通过观测数据进行识别和估计。

Plug-in 估计器及偏差分析

对于指数族分布,其 plug-in 估计器的整体架构仍然遵循 Dragonnet/VCNet 的多任务学习范式。训练该 plug-in 估计器的损失函数由两部分组成:第一项表示 EDF 的负对数似然,第二项表示广义倾向性得分 $\pi(A|X)$ 的负对数似然。

当损失函数收敛之后,我们即可通过经验均值构造 plug-in 估计器 $\hat{\psi}_{plug-in}(a)$

接下来,我们通过推导 ADCF 的 von-Mises 展开式,展示该 plug-in 估计器的偏差所在。对于 von-Mises 展开式,其高阶余项是关于 nuisance functions(即结果回归模型与倾向性得分模型)的二次项,这意味着它仅由这两个模型预测误差的二阶乘积构成,在合理的收敛速率下可以忽略。因此,Plug-in 估计器的偏差主要取决于展开式中的一阶偏差项

有效估计器的构建

DR 估计器

对于 plug-in 估计器的偏差,一种最直观的思路就是在原估计器基础上,直接将一阶偏差减掉,如此我们便得到了针对指数族分布的 DR 估计器。

DR 估计器建立在结果回归模型和倾向性得分模型的基础上,即使两者有一个是不一致的,我们也能得到一致估计器(consistent estimator);若两者均一致,那么我们则能得到更快的收敛速率。然而,如 Dragonnet 与 VCNet 中所言,由于 DR 估计器中倾向性得分出现在分母的位置,这会导致 DR 估计器在有限样本量下极不稳定。

目标正则化

TMLE 则是另一种修正 plug-in 估计器偏差的方法,其通过对原始分布进行扰动,使其变成目标分布,且满足目标分布上的一阶偏差为 0。具体地,我们学习一个新的受扰动的参数分布,使得其满足一阶偏差为 $0$ 的条件。当满足该条件时,我们可以得到新的有效估计器。

那么如何将学习扰动参数的过程设计成目标正则化项,并将其融入 plug-in 估计器的损失函数中呢?我们发现,只要令该目标正则化项关于模型参数的导数等于一阶偏差,那么当神经网络训练使得目标正则化项收敛的时候,其导数为 $0$,意味着一阶偏差也为 $0$

沿着这个思路,我们基于 TMLE 理论构造了对应的目标正则化项 $\mathcal{R}_{targeted}$。综上,我们设计有效估计器的总损失函数如下,其中第一项是 plug-in 估计器的损失函数 $\mathcal{L}_{plug-in}$,第二项是针对指数族分布的目标正则化项:

$$\mathcal{L}_{total} = \mathcal{L}_{plug-in} + \lambda \mathcal{R}_{targeted}$$

我们可以在理论上证明,当倾向性得分模型和结果回归模型的误差乘积满足一定的收敛速率时,我们设计的估计器具有良好的收敛性质和渐近正态性。

目标正则化的具体例子

上一节已经给出了面向指数族分布的目标正则化项的通用形式。在具体实践中,只需要针对不同的分布,指定不同的累积函数 $b(\theta)$、链接函数 $g(\cdot)$ 即可。

高斯分布:高斯分布的累积函数为 $b(\theta) = \theta^2/2$,链接函数为恒等函数。将其代入通用形式后,得到的正则化项与 Dragonnet/VCNet 中给出的目标正则化项是完全等价的。

伯努利分布:伯努利分布的累积函数为 $b(\theta) = \log(1+e^\theta)$,链接函数为 logit 函数。将其代入即可得到适用于二分类结果变量的正则化项。

泊松分布:泊松分布的累积函数为指数函数 $b(\theta) = e^\theta$,链接函数为对数函数。代入后即可得到适用于计数型结果变量的正则化项。

实验

对于高斯分布,我们提出的方法和 Dragonnet/VCNet 中的目标正则化等价,其有效性已在相关研究中得到验证。对于伯努利分布和泊松分布,我们分别在生成数据和半生成数据(News、TCGA)上验证所提出的目标正则化的有效性。

对于二元处理变量,我们使用 ATE 的绝对误差作为评估指标;对于连续处理变量,我们使用平均绝对误差(MAE)和均方误差(MSE)作为评估指标。实验结果表明,引入指数族目标正则化后,模型的估计偏差得到了显著降低。

此外,该算法也已经在滴滴宏观、微观的多个因果效应估计场景中取得显著效果,被广泛应用在各类因果效应估计模型中。

总结

在本文中,我们聚焦于构建面向指数族分布的有效估计器。具体而言,我们首先对平均剂量规范函数(ADCF)进行 von-Mises 展开,揭示了指数族分布下 plug-in 估计器的一阶偏差项;基于上述理论结果,我们将函数目标化正则化技术推广至指数族情形,构建了相应的神经网络估计器,并给出了其理论收敛速率。实验结果验证了我们理论推导的正确性以及所提模型的有效性。

参考文献

[1] Shi C, Blei D, Veitch V. Adapting neural networks for the estimation of treatment effects[J]. Advances in neural information processing systems, 2019, 32.

[2] Nie L, Ye M, Nicolae D. VCNet and Functional Targeted Regularization For Learning Causal Effects of Continuous Treatments[C]//International Conference on Learning Representations.

[3] Li J, Yang Z, Dan J, et al. Treatment Effect Estimation for Exponential Family Outcomes using Neural Networks with Targeted Regularization[J]. arXiv preprint arXiv:2502.07295, 2025.

[4] Gao Z, Hastie T. Estimating heterogeneous treatment effects for general responses[J]. arXiv preprint arXiv:2103.04277, 2021.




上一篇:滴滴因果建模:融合最优传输与表征学习解决连续变量长期效应估计
下一篇:AI智能体工程现状2025:行业报告深度解析与企业落地挑战
您需要登录后才可以回帖 登录 | 立即注册

手机版|小黑屋|网站地图|云栈社区 ( 苏ICP备2022046150号-2 )

GMT+8, 2026-3-26 07:35 , Processed in 0.529871 second(s), 43 queries , Gzip On.

Powered by Discuz! X3.5

© 2025-2026 云栈社区.

快速回复 返回顶部 返回列表