导语


在上一次分享中,我们针对完全随机实验的Fisher精确p值方法和Neyman的重复抽样方法展开了讨论,对于Fisher方法,可以在零假设成立时构造统计量计算其p值;对于Neyman方法,介绍了三种平均因果效应的估计量,从而可以得到对应的置信区间保守估计。然而,实验性研究数据的收集往往较为昂贵,且有许多领域存在伦理道德问题,目前大量的研究仍然是基于观察性数据进行分析。潜在结果框架旨在通过匹配及分层方法,以实现一种类随机化,从而进行可信的因果效应估计。因此,观察性研究的理论基础仍是分层随机实验或配对随机实验的因果效应估计。

本次读书会的讨论将继续围绕W. Imben和B. Rubin的著作Causal Inference for Statistics, Social, and Biomedical Sciences第一部分和第二部分进行讨论,也可参考厦门大学赵西亮老师编写的《基本有用的计量经济学》相关章节。本次分享将针对随机化实验中的线性回归方法和模型推断方法进行简介,并推广至分层随机实验和配对随机实验。此外,对于分配机制未知的观察性研究情形,我们介绍非混淆性假设的重要性,均衡得分和倾向得分的概念及其估计方法,并结合实证分析进行讨论。





背景



随机化实验被称为是因果推断的黄金标准,然而存在一定缺陷。在随机化实验中,参与个体是被动地随机化分配到治疗组和对照组的,干预状态不是个体选择的结果。随机化实验得到的结果只能解释为总体的平均因果效应。现实中一项干预或政策实施,是否受到干预往往是个体选择的结果,接受干预的个体并不是总体的随机样本,他们的平均因果效应并不一定是总体平均因果效应。考虑大学教育对个人收入水平的影响,如果能进行随机化实验,则随机化得到的结果是总体接受大学教育的平均收益率。但现实中大学教育往往是个人选择的结果,如果存在正向选择性,潜在教育的收益率更高的个体选择了接受大学教育,而收益率较低的个体没有选择大学教育。那么现实中大学教育的平均收益率应该高于总体平均的教育收益率。因此,仅仅利用随机化实验的结果,并不一定是现实中政策的因果效应。




内容简介




在Causal Inference for Statistics, Social, and Biomedical Sciences的第一部分中,从以下四个角度对完全随机实验进行了介绍:Fisher精确p值方法、Neyman重复抽样法、线性回归方法和基于模型的推断方法。对于线性回归方法,不论真实模型是否满足线性假设,其回归系数均是平均因果效应的相合估计。对于基于模型的推断方法,将对缺失的潜在结果进行建模分析,结合数据使用贝叶斯方法进行参数的后验分布估计,从而得到感兴趣的因果统计量的估计。此外,考虑从完全随机实验到分层随机实验的推广,简单的饱和回归往往不能得到平均因果效应的相合估计,因此需要对模型进行修改。对于配对随机实验,每层只有一个个体随机进行治疗组和另外一个个体进行对照组,因此无法得到层内治疗组和对照组样本方差的估计。但在额外的假设下,可以实现对平均因果效应的稳健估计。


对于观察性研究,将介绍“设计”阶段的分析:按照Don Rubin的说法,应该根据倾向得分来“设计”观察性研究,即按照倾向得分将人群进行匹配,形成一个近似的“随机化实验”。我们首先介绍非混淆性假设的意义,平衡得分和倾向得分的概念,并完成倾向得分是最粗的均衡得分的证明。接下来考虑一类逐步回归思想的逻辑回归模型,通过逐步纳入协变量实现个体倾向得分的估计。此外,有文献证明,使用估计的倾向得分得到的平均因果作用的估计量的渐进方差比使用真实的倾向得分得到的小。





主讲人 



李昊轩,北京大学大数据科学研究中心博士研究生,导师为周晓华教授,专业为数据科学(统计学),研究兴趣为因果推断,推荐系统,强化学习。





直播信息




时间:

2021年11月14日上午9:00-11:00


参与方式:

  • 文末扫码参加读书会第三季,加入群聊,获取系列读书会回看权限,成为因果社区种子用户,与900余位社区的科研工作者沟通交流,共同推动因果科学的发展。
  • 集智俱乐部 B 站免费直播,扫码可预约。

扫码报名



因果科学读书会第三季启动


由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,将主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。读书自2021年10月24日开始,每周日上午 9:00-11:00举办,持续时间预计 2-3 个月。


读书会大纲一览:

Donald Rubin:Essential Concepts of causal inference

「基础理论学习」
因果推断的潜在结果框架在实验性研究的应用
因果推断在观察性研究中的应用:DESIGN

因果推断在观察性研究中的应用(续):ANALYSIS

「案例研讨」
医学、药学、生物学中的研究案例
管理学、经济学、社会学及政治学中的研究案例
因果随机森林及其在工业界的应用
多级治疗与连续性暴露
因果推荐系统
因果在自然语言处理中的应用

因果与公平性和可解释性

「深入理论学习」

双稳健估计、处理极端倾向得分的方法
阴性对照试验
高维因果推断
结合随机化试验数据与观察性数据




点击“阅读原文”,报名读书会