导语


在前两次的读书会中,我们介绍了随机化实验及相关推断方法。然而,实际研究中我们经常会遇到非随机化的数据,即观察性数据。针对观察性数据的分析一般基于非混淆性假设,给定协变量后潜在结果与分配方案独立。在此假设下可以证明,倾向得分是均衡得分,并且给定倾向得分后,潜在结果与分配机制独立。因此,倾向得分成为了估计因果作用的重要工具。正如Rosenbaum和Rubin在1983年的论文中所说,倾向得分在观察性研究的因果推断中起着中心作用。

本次读书会的讨论将继续围绕Guido Imben和Donald Rubin的著作Causal Inference for Statistics, Social, and Biomedical Sciences第四部分和第五部分进行讨论。本次读书会也将参考Paul Rosenbaum的Design of Observational Studies。本次讨论主要关注倾向得分的均衡性质,当非混淆性成立时,探索观察性研究中平均因果作用的估计方法,包括逆概率加权估计、子分类估计和匹配估计。




背景




非正式收入如何影响个体行为?Imbens-Rubin-Sacerdote美国国税局彩票数据收集了某年买彩票中了大奖(Winner)和中了小奖(Loser)的个体,把是否中大奖作为处理,买彩票后若干年的工资作为结局。描述性分析发现,买彩票越多,中大奖的可能性越大;原本工资越高,中奖后的工资也倾向于高。这一数据不是随机化试验,买彩票数量和原本工资是应当调整的协变量,在构造倾向得分时需要纳入这两个协变量。估计完倾向得分之后,如何估计平均因果作用?我们将用这一数据说明逆概率加权估计和子分类估计,并比较这两种方法的优劣。


电焊工被暴露于铬和镍的环境中是否会引起DNA蛋白质交联(DNA的严重损伤)?在这一数据集中,有21位电焊工和26位对照者。我们将用这一数据说明匹配的步骤,以及几种匹配方式:配对匹配、多重对照匹配、完全匹配。匹配有各种形式的扩展。如果不需精确匹配某些名义变量,可用精细均衡来约束匹配,达到该名义变量在不同处理组间的均衡。如果有多个处理组,或者不便划分处理组(如研究剂量效应时),可用非二部图匹配构造配对。事实上,Card和Krueger关于最低工资对就业率的研究就是基于匹配。


图:今日随机医学新闻:咖啡导致双胞胎抑郁,Jim Borgman





内容简介




非混淆性假设是在观察性研究中估计平均因果作用的常用假设。本次报告将从倾向得分的均衡性质出发,介绍如何根据倾向得分对样本分层,进而探讨三种典型的因果作用估计方法:
1. 逆概率加权估计,记Horvitz-Thompson估计,即直接用倾向得分的倒数作为权重,计算处理组和对照组结局的加权平均差异。与回归相结合,可以得到双稳健估计。
2. 子分类估计,即按照倾向得分,对完整样本分层,在每一层内估计平均因果作用,然后按层样本量加权。可以说明,子分类估计是加权估计的一种,通常比逆概率加权估计更稳定。

3. 匹配,这种方法一般用于处理组个体较少、对照组个体较多的情形。在匹配时,根据匹配精度,有精确匹配、非精确匹配;根据配对选取方式,有无放回匹配、有放回匹配;根据匹配数量,有配对匹配、多重对照匹配等。


我们会用实际例子说明上述三种方法如何应用。这些方法都基于非混淆性假设,为了评估这一假设的合理性,本次报告也将介绍几种评估策略,如伪结局、伪处理的方法。此外,敏感性分析也是评估基于非混淆性假设的因果作用估计的常用手段,我们将介绍一种简单情形的敏感性分析,从而说明敏感性分析对于检验因果作用的重要性。

最后,我们会简单对比随机实验与观察性研究。一个精心设计的观察性研究应当类似于简单的随机实验。朴素模型把观察性研究分解为两项任务:一项是机械的,根据观察到的协变量构造可比的处理组个体和对照组个体匹配;另一项是科学的,要用手头的数据论证非混淆性假设是否合理、偏离多远。




主讲人 



邓宇昊,北京大学数学科学学院统计学2018级博士生,导师为周晓华教授,主要研究方向为生物统计、因果推断、临床试验研究中的统计学方法,已在Biometrics、Statistics in Medicine等杂志发表多篇论文。




直播信息




时间:

2021年11月21日上午9:00-11:00


参与方式:

  • 文末扫码参加读书会第三季,加入群聊,获取系列读书会回看权限,成为因果社区种子用户,与900余位社区的科研工作者沟通交流,共同推动因果科学的发展。
  • 集智俱乐部 B 站免费直播,扫码可预约。

扫码报名



因果科学读书会第三季启动


由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,将主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。读书自2021年10月24日开始,每周日上午 9:00-11:00举办,持续时间预计 2-3 个月。

读书会大纲一览:

Donald Rubin:Essential Concepts of causal inference

「基础理论学习」
因果推断的潜在结果框架在实验性研究的应用
因果推断在观察性研究中的应用:DESIGN

因果推断在观察性研究中的应用(续):ANALYSIS

「案例研讨」
医学、药学、生物学中的研究案例
管理学、经济学、社会学及政治学中的研究案例
因果随机森林及其在工业界的应用
多级治疗与连续性暴露
因果推荐系统
因果在自然语言处理中的应用

因果与公平性和可解释性

「深入理论学习」

双稳健估计、处理极端倾向得分的方法
阴性对照试验
高维因果推断
结合随机化试验数据与观察性数据




点击“阅读原文”,报名读书会