导语


2021年10月11日,Joshua D. Angrist和Guido W. Imbens因“对因果关系分析的方法学贡献”而获得2021年诺贝尔经济学奖。Angrist和Imbens最为知名的工作是其在20世纪90年代将工具变量引入了潜在结果框架,该框架也被称为Rubin因果模型。本次读书会邀请到了该框架的提出者,统计学家Donald B. Rubin教授来为我们介绍潜在结果框架。同时在Rubin分享结束之后,邀请了北京大学周晓华教授,厦门大学赵西亮教授以及清华大学崔鹏副教授等老师一起深度讨论交流。


此次分享为公开分享,为大家提供Zoom房间号,可以面对面交流,扫码报名获取提醒和回放提醒,欢迎大家在文中报名,也欢迎分享给更多朋友一起参与讨论!




背景 




因果效应的测度前提是可忽略性假设,既不存在没有观测到的混杂因子(遗漏变量),然而,在观察性研究中,这条假设几乎很难满足。在存在未观测混杂的情况下识别和估计因果作用一直是一个巨大的挑战。经济学家们长期以来在线性结构方程模型的框架下使用工具变量来处理“遗漏变量偏误”的问题,但是线性结构方程模型隐含了较强的同质性因果效应的假设。Angrist和Imbens最为知名的工作是其在20世纪90年代将工具变量引入了潜在结果框架(Rubin因果模型),也因此荣获了2021年诺贝尔经济学奖。


因果推理指的是推断如果我们改变我们正在做的事情将来会发生什么,或者推断如果我们在更遥远的过去做了不同的事情,过去会发生什么。人类通过预测采取不同的行动将会发生什么来调整自己的行为,并利用过去的经验来指导这些选择。由于近期才严谨地形式化了因果推理,因此因果推理的历史是值得关注的。而它的未来也是值得探索的,利用现在计算机技术研究对有意识的人类的干预还没有开发出来。





内容简介 




在赌博时,为了公平而抽签或洗牌的想法可以追溯到几千年前,但使用实际的随机作为因果推理的基础的第一位科学家是Ronald A. Fisher。他提出了随机化本身应该被用来作为推理的基础来推断干预的因果效应[1]。


Fisher实际上是对实验单元进行随机处理,从而为在所有可能的分配创建一个已知的尖锐零分布(sharp null hepothesis),这是因果推理的一个巨大步骤,也是一个基本思想。另一个巨大的进步是,他为随机反驳这样一个假想的尖锐零假设提供了形式化说明(从而证明存在“因果作用”)。


而Jerzy Neyman在1923年的博士论文中首先使用了“潜在结果”(potential outcome)的表述,将随机实验的任务定义为N个单位的可能结果的函数,给出了因果作用的数学定义。Neyman对于潜在结果框架的贡献还表现在隐含地考虑了稳定性假设以及隐含地考虑到了对干预单位实现随机分配的问题。


潜在因果模型真正成为因果推理中最具有深远影响的理论模型是统计学家Donald B. Rubin推动的,也就是本次读书会的主讲人。Rubin将潜在因果模型放在了因果分析的中心环节,认为潜在因果不仅在随机实验中能够发挥作用,在观察研究中也能发挥作用。Rubin另一重要贡献在于他重点讨论了实验的分配机制,认为分配机制对识别或估计因果作用具有重要影响。因此,潜在结果模型又被称为Rubin因果模型,这一理论加深了统计学与经济学、生物医学、管理学等学科的交流与融合。


本次读书会十分荣幸邀请到了Donald B. Rubin教授来为我们讲解因果推理的历史与未来。讲座将会详细讲解Fisher和Neyman的工作以及他们对因果推理的贡献,这些贡献也引发了非常多的讨论。作为Rubin最重要的理论贡献,Rubin教授也将讲解潜在结果框架的基本概念和主要贡献,包括行为、单位、分配机制、潜在结果等重要概念的梳理及潜在结果框架在观察研究中的作用和其分配机制。未来的因果推理将会与人工智能、机器学习和计算机科学有更紧密的联系,期待因果推理在现代计算机技术下大放异彩!





主讲人 




Donald B. Rubin,现任清华大学和天普大学讲席教授,美国科学院院士, 美国艺术与科学院院士, 美国科学促进会会士。Rubin教授是当今世界影响力最深远的统计学家之一,他在现代统计领域做出了许多基础贡献,特别是在缺失数据和因果推断方面。他也是世界上被引用最多的科学作者之一,根据谷歌学者的数据,他被引用超过25万次。此外,截至2019年底,他有10篇单独发表的论文,每一篇都被引用超过1000次。
Rubin教授的研究领域集中在:实验和观察研究中的因果推理;无响应抽样调查和缺失数据问题中的推理;贝叶斯技术的应用等。

他获得过统计学领域几乎所有著名奖项,是当今世界最具影响力的统计学家。他对科学的贡献已超出统计学范畴,其统计思想对生物医学、经济学、心理学、教育学、社会学及计算机科学等众多领域均产生了重要影响。


Rubin的代表作

[1] DB Rubin.(2019) Essential concepts of causal inference: a remarkable history and an intriguing future.

这篇文章介绍了随机试验与观察研究中因果推断的基本概念及历史。Rubin在1975年,指出了因果推断的基本问题——缺失数据问题,并阐述了在观察研究中需要考虑设计阶段与处理分配机制。随后,在观察研究中因果推断得到迅速发展。

[2] AP Dempster, NM Laird, DB Rubin.(1977) Maximum Likelihood from Incomplete Data Via the EM Algorithm. Proceedings of the Royal Statistical Society, 39(1), 1-22.

这篇文章提出了一种从不完全数据中计算最大似然估计的广泛适用的算法。文中列举了许多例子,包括缺失值情况,对分组、删减或截断数据的应用,有限混合模型,方差分量估计,超参数估计,迭代重加权最小二乘和因子分析等。

[3] RJA Little, DB Rubin.(2019) Statistical analysis with missing data.

这本书回顾了处理丢失数据的历史方法,并描述了具有缺失值的多元分析的简单方法。作者根据数据统计模型和缺失数据机制衍生出的可能性为问题分析提供一个连贯的理论,并将该理论应用于广泛地重要缺失数据问题。

[4] PR Rosenbaum, DB Rubin.(1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41-55.

在 Donald Rubin 早期因果推断的文献中,推崇的方法是“匹配”(matching)。如果观测协变量的维数较高,匹配就很难实现了。Paul Rosenbaum在哈佛统计系读PhD期间,在Rubin课上问到了这个问题,就促进了两人合作了这篇文章。这篇文章主要介绍了在观察性研究中,倾向评分的作用。我们应该根据倾向得分来“设计”观察性研究;按照倾向得分将人群进行匹配,形成一个近似的“随机化试验”。

[5] Rubin, D.B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.

[6] Rubin, D. B. (1976) Inference and missing data. Biometrika, 63, 581-592.


本次读书会也将参考W. Imbens和B. Rubin的著作Causal Inference for Statistics, Social, and Biomedical Sciences作为基础理论学习主要阅读书目,欢迎大家根据本书内容积极讨论!






讨论环节 




本次分享邀请到北京大学周晓华教授、厦门大学赵西亮教授和清华大学崔鹏老师与Rubin对话讨论。


周晓华,北京大学讲席教授,北京大学北京国际数学研究中心生物统计和生物信息研究室主任,北京大学公共卫生学院生物统计系主任,在国际顶尖的统计和生物统计期刊JRSSB、JASA、Biometrika、Ann. Statist、Biometrics、Stat. Med.等发表230多篇因果推断、统计建模相关方法及在医学研究上应用的SCI论文,130余篇是第一或通信作者,JCR一区论文120篇,总引用量12000余次。提出的新型因果推断和灵敏度分析理论及方法被应用于工业及医疗领域,并获得了国际贝叶斯学会颁发的重要奖项——Mitchell奖;在国际上首次提出群体大数据新的因果推断理论。周晓华及其团队在研究因果作用的可识别性、估计量的稳健性、与死亡相关生命质量的因果推断、随机激励设计的因果推断、个性化治疗等多个研究课题上取得了突出成果。

周晓华与潜在结果因果推断模型创始人美国科学院院士Donald Rubin教授有超过30年的合作。创办并组织召开三届太平洋因果推断会议(Pacific Causal Inference Conference),为因果推断最新数学成果的国际性交流和发展做出重要贡献。


赵西亮,厦门大学经济学院和王亚南经济研究院经济学教授、博士生导师。清华大学经济管理学院数量经济学专业博士,美国康奈尔大学和芝加哥大学访问学者,加拿大西安大略大学经济系博士后,长期从事中国经济和应用计量经济学研究,编著教材《基本有用的计量经济学》,被京东评为“十大构思细腻的大学教材”之一。

在《经济研究》、《经济学》(季刊)、《数量经济技术经济研究》、《WorldEconomy》等国内外重要期刊发表论文十余篇。China Economic Review, 《经济研究》、《管理世界》、《经济学(季刊)》、《世界经济》等国内外重要期刊匿名审稿人。


崔鹏,清华大学长聘副教授,于2010年获得清华大学博士学位,研究兴趣包括大数据环境下的因果推理与稳定预测、网络表征学习,及其在金融科技、智慧医疗及社交网络等场景中的应用。他在数据挖掘和多媒体领域的著名会议和期刊上发表了100多篇论文,并先后获得7项国际会议及期刊最佳论文奖。他于2015年获得ACM中国新星奖,并于2018年获得CCF-IEEE CS青年科学家奖,目前是CCF的杰出会员以及IEEE的高级会员。


主持人:杨二茶,清华大学经济管理学院博士在读,研究领域:创新创业,因果推断和社会网络分析。





直播信息




时间:

2021年10月22日晚上9:00-11:00


参与方式:

  • 集智俱乐部 B 站免费直播

  • 扫码获取Zoom房间号可直接开麦与主讲人交流

  • 付费参加读书会,加入群聊,获取系列读书会回看权限,成为因果社区种子用户,与900余位社区的科研工作者沟通交流,共同推动因果科学的发展。



因果科学读书会第三季启动


由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,将主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。读书自2021年10月24日开始,每周日上午 10:00-12:00举办,持续时间预计 2-3 个月。

扫码报名


读书会大纲一览:

Donald Rubin:Essential Concepts of causal inference

「基础理论学习」
因果推断的潜在结果框架在实验性研究的应用
因果推断在观察性研究中的应用:DESIGN

因果推断在观察性研究中的应用(续):ANALYSIS

「案例研讨」
医学、药学、生物学中的研究案例
管理学、经济学、社会学及政治学中的研究案例
因果随机森林及其在工业界的应用
多级治疗与连续性暴露
因果推荐系统
因果在自然语言处理中的应用

因果与公平性和可解释性

「深入理论学习」

双稳健估计、处理极端倾向得分的方法
阴性对照试验
高维因果推断
结合随机化试验数据与观察性数据


评论区留下你想与Rubin交流的问题,小编会选择一些问题在第一期读书会中向Rubin提问,欢迎大家加入直播一起讨论!



点击“阅读原文”,报名读书会