因果推断在观察性研究中的应用 | 周日直播·因果科学读书会

导语
本次读书会的讨论将继续围绕W. Imben和B. Rubin的著作Causal Inference for Statistics, Social, and Biomedical Sciences第一部分和第二部分进行讨论,也可参考厦门大学赵西亮老师编写的《基本有用的计量经济学》相关章节。本次分享将针对随机化实验中的线性回归方法和模型推断方法进行简介,并推广至分层随机实验和配对随机实验。此外,对于分配机制未知的观察性研究情形,我们介绍非混淆性假设的重要性,均衡得分和倾向得分的概念及其估计方法,并结合实证分析进行讨论。

背景
背景
随机化实验被称为是因果推断的黄金标准,然而存在一定缺陷。在随机化实验中,参与个体是被动地随机化分配到治疗组和对照组的,干预状态不是个体选择的结果。随机化实验得到的结果只能解释为总体的平均因果效应。现实中一项干预或政策实施,是否受到干预往往是个体选择的结果,接受干预的个体并不是总体的随机样本,他们的平均因果效应并不一定是总体平均因果效应。考虑大学教育对个人收入水平的影响,如果能进行随机化实验,则随机化得到的结果是总体接受大学教育的平均收益率。但现实中大学教育往往是个人选择的结果,如果存在正向选择性,潜在教育的收益率更高的个体选择了接受大学教育,而收益率较低的个体没有选择大学教育。那么现实中大学教育的平均收益率应该高于总体平均的教育收益率。因此,仅仅利用随机化实验的结果,并不一定是现实中政策的因果效应。
内容简介
内容简介
在Causal Inference for Statistics, Social, and Biomedical Sciences的第一部分中,从以下四个角度对完全随机实验进行了介绍:Fisher精确p值方法、Neyman重复抽样法、线性回归方法和基于模型的推断方法。对于线性回归方法,不论真实模型是否满足线性假设,其回归系数均是平均因果效应的相合估计。对于基于模型的推断方法,将对缺失的潜在结果进行建模分析,结合数据使用贝叶斯方法进行参数的后验分布估计,从而得到感兴趣的因果统计量的估计。此外,考虑从完全随机实验到分层随机实验的推广,简单的饱和回归往往不能得到平均因果效应的相合估计,因此需要对模型进行修改。对于配对随机实验,每层只有一个个体随机进行治疗组和另外一个个体进行对照组,因此无法得到层内治疗组和对照组样本方差的估计。但在额外的假设下,可以实现对平均因果效应的稳健估计。
对于观察性研究,将介绍“设计”阶段的分析:按照Don Rubin的说法,应该根据倾向得分来“设计”观察性研究,即按照倾向得分将人群进行匹配,形成一个近似的“随机化实验”。我们首先介绍非混淆性假设的意义,平衡得分和倾向得分的概念,并完成倾向得分是最粗的均衡得分的证明。接下来考虑一类逐步回归思想的逻辑回归模型,通过逐步纳入协变量实现个体倾向得分的估计。此外,有文献证明,使用估计的倾向得分得到的平均因果作用的估计量的渐进方差比使用真实的倾向得分得到的小。
主讲人
主讲人

李昊轩,北京大学大数据科学研究中心博士研究生,导师为周晓华教授,专业为数据科学(统计学),研究兴趣为因果推断,推荐系统,强化学习。
直播信息
直播信息
时间:
2021年11月14日上午9:00-11:00
参与方式:
-
文末扫码参加读书会第三季,加入群聊,获取系列读书会回看权限,成为因果社区种子用户,与900余位社区的科研工作者沟通交流,共同推动因果科学的发展。 -
集智俱乐部 B 站免费直播,扫码可预约。

扫码报名
因果科学读书会第三季启动
因果科学读书会第三季启动
读书会大纲一览:
Donald Rubin:Essential Concepts of causal inference
因果推断在观察性研究中的应用(续):ANALYSIS
因果与公平性和可解释性
「深入理论学习」
点击“阅读原文”,报名读书会






