Uplift与因果推断
因果推断(Causal Inference)研究如何更加科学识别变量间的因果关系,是Uplift Modeling的理论基础。
在通常的预测任务中,我们拟合的实际是Y与X的相关关系,X甚至可以是Y的结果,如GDP和发电量之间可能有一系列复杂的关系,但只要二者相关就可以互相预测。
在另一些场景中则有所区别,如预测任务要指导干预(Treatment)决策时,我们所能掌控的只有Treatment变量,此时我们希望知道的是执行干预与否的效果差异(通常看增量,uplift),目的是决策是否执行或执行何种干预。如在“发券&下单”的问题中,用户的历史订单数对下单率预估有较大帮助,但对是否发券的指导意义可能会大打折扣。
本文概述与Uplift相关或有助于理解Uplift Modeling的因果推断相关的理论知识。
相关、因果、辛普森悖论
相关和因果:理解因果关系首先是和相关关系做区分,因果关系要求“原因”先于并导致“结果”,而相关关系对顺序不做要求。参考材料中提到了很多示例,如“溺水死亡人数与冰激凌销量正相关”,显然二者不是因果关系,而是由“气温(或季节)”联系起来的相关关系。
另一个很有名的现象是辛普森悖论(Simpson Paradox)。下面是[1]中一个例子,看“吃药”和“康复”二者的关系。如下表,从男性或女性分别看,都可以观察到吃药是有效的,但整体看会得到吃药是无效的结论。
导致该问题的原因是这里“是否康复”除了受到“吃药”的影响,也会受到“性别”的影响,此时“性别”就是一个混淆变量(Confounder)。
用一个直观的几何表示如下,“Men”整体的康复率高于“Women”,且“Women+Treat”的康复率低于“Men+No Treat”,因此当“吃药”组中“Women”比例高而“安慰剂”组中“Men”比例高时,可能出现这样的结果。
用下文提到的因果图表示为,此时单独一个Drug判断康复是不准确的
再扩展一个例子,X是运动量,Y是胆固醇量,每个实线椭圆表示一个年龄组,分组看运动有效减少了胆固醇;而从虚线的全局数据看则相反。此时“年龄”变为一个混淆变量,干扰估计结果。
因果图
因果图对于理解因果关系很有帮助,这里列举三个基本结构。同样取自[1]中的一些例子(注:极端情况相关性可能有差异)。最后简单介绍前门准则和后门准则。
基本结构
链状结构(Chain):XY、XZ、YZ都相关;给定Y时,XZ无关。
P ( Z = z ∣ X = x , Y = c ) = P ( Z = z ∣ Y = c ) P(Z=z|X=x,Y=c)=P(Z=z|Y=c) P(Z=z∣X=x,Y=c)=P(Z=z∣Y=c)
叉状结构(Fork):XY、XZ、YZ都相关,但YZ不为因果;给定X时,YZ不相关。
对撞结构(Collider):XZ、YZ相关,XY不相关;给定Z时,XY相关
前门、后门准则
后门准则(back-door):存在变量集合Z,①Z中节点不为X的后代;②Z阻断所有XY之间指向X的路径。此时XY的因果作用可识别
P ( y ∣ d o ( X ) = x ) = ∑ z P ( y ∣ x , z ) P ( z ) P(y|do(X)=x)=\sum_{z}P(y|x,z)P(z) P(y∣do(X)=x)=z∑P(y∣x,z)P(z)
前门准则(front-door):存在变量集合Z,①Z切断所有X到Y的直接路径;②X到Z无后门路径;③所有Z到Y的后门路径被X切断。此时,若P(x,z)>0,则XY的因果作用可识别
P ( y ∣ d o ( X ) = x ) = ∑ z P ( z ∣ x ) ∑ x ′ P ( y ∣ x ′ , z ) P (
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
如需转载请保留出处:https://bianchenghao.cn/bian-cheng-ji-chu/100552.html