Donald Rubin亲自讲解什么是因果推断丨周五直播·因果科学读书会
导语
此次分享为公开分享,为大家提供Zoom房间号,可以面对面交流,扫码报名获取提醒和回放提醒,欢迎大家在文中报名,也欢迎分享给更多朋友一起参与讨论!
背景
背景
因果效应的测度前提是可忽略性假设,既不存在没有观测到的混杂因子(遗漏变量),然而,在观察性研究中,这条假设几乎很难满足。在存在未观测混杂的情况下识别和估计因果作用一直是一个巨大的挑战。经济学家们长期以来在线性结构方程模型的框架下使用工具变量来处理“遗漏变量偏误”的问题,但是线性结构方程模型隐含了较强的同质性因果效应的假设。Angrist和Imbens最为知名的工作是其在20世纪90年代将工具变量引入了潜在结果框架(Rubin因果模型),也因此荣获了2021年诺贝尔经济学奖。
因果推理指的是推断如果我们改变我们正在做的事情将来会发生什么,或者推断如果我们在更遥远的过去做了不同的事情,过去会发生什么。人类通过预测采取不同的行动将会发生什么来调整自己的行为,并利用过去的经验来指导这些选择。由于近期才严谨地形式化了因果推理,因此因果推理的历史是值得关注的。而它的未来也是值得探索的,利用现在计算机技术研究对有意识的人类的干预还没有开发出来。
内容简介
内容简介
在赌博时,为了公平而抽签或洗牌的想法可以追溯到几千年前,但使用实际的随机作为因果推理的基础的第一位科学家是Ronald A. Fisher。他提出了随机化本身应该被用来作为推理的基础来推断干预的因果效应[1]。
Fisher实际上是对实验单元进行随机处理,从而为在所有可能的分配创建一个已知的尖锐零分布(sharp null hepothesis),这是因果推理的一个巨大步骤,也是一个基本思想。另一个巨大的进步是,他为随机反驳这样一个假想的尖锐零假设提供了形式化说明(从而证明存在“因果作用”)。
而Jerzy Neyman在1923年的博士论文中首先使用了“潜在结果”(potential outcome)的表述,将随机实验的任务定义为N个单位的可能结果的函数,给出了因果作用的数学定义。Neyman对于潜在结果框架的贡献还表现在隐含地考虑了稳定性假设以及隐含地考虑到了对干预单位实现随机分配的问题。
潜在因果模型真正成为因果推理中最具有深远影响的理论模型是统计学家Donald B. Rubin推动的,也就是本次读书会的主讲人。Rubin将潜在因果模型放在了因果分析的中心环节,认为潜在因果不仅在随机实验中能够发挥作用,在观察研究中也能发挥作用。Rubin另一重要贡献在于他重点讨论了实验的分配机制,认为分配机制对识别或估计因果作用具有重要影响。因此,潜在结果模型又被称为Rubin因果模型,这一理论加深了统计学与经济学、生物医学、管理学等学科的交流与融合。
本次读书会十分荣幸邀请到了Donald B. Rubin教授来为我们讲解因果推理的历史与未来。讲座将会详细讲解Fisher和Neyman的工作以及他们对因果推理的贡献,这些贡献也引发了非常多的讨论。作为Rubin最重要的理论贡献,Rubin教授也将讲解潜在结果框架的基本概念和主要贡献,包括行为、单位、分配机制、潜在结果等重要概念的梳理及潜在结果框架在观察研究中的作用和其分配机制。未来的因果推理将会与人工智能、机器学习和计算机科学有更紧密的联系,期待因果推理在现代计算机技术下大放异彩!
主讲人
主讲人
他获得过统计学领域几乎所有著名奖项,是当今世界最具影响力的统计学家。他对科学的贡献已超出统计学范畴,其统计思想对生物医学、经济学、心理学、教育学、社会学及计算机科学等众多领域均产生了重要影响。
Rubin的代表作
[1] DB Rubin.(2019) Essential concepts of causal inference: a remarkable history and an intriguing future.
这篇文章介绍了随机试验与观察研究中因果推断的基本概念及历史。Rubin在1975年,指出了因果推断的基本问题——缺失数据问题,并阐述了在观察研究中需要考虑设计阶段与处理分配机制。随后,在观察研究中因果推断得到迅速发展。
[2] AP Dempster, NM Laird, DB Rubin.(1977) Maximum Likelihood from Incomplete Data Via the EM Algorithm. Proceedings of the Royal Statistical Society, 39(1), 1-22.
这篇文章提出了一种从不完全数据中计算最大似然估计的广泛适用的算法。文中列举了许多例子,包括缺失值情况,对分组、删减或截断数据的应用,有限混合模型,方差分量估计,超参数估计,迭代重加权最小二乘和因子分析等。
[3] RJA Little, DB Rubin.(2019) Statistical analysis with missing data.
这本书回顾了处理丢失数据的历史方法,并描述了具有缺失值的多元分析的简单方法。作者根据数据统计模型和缺失数据机制衍生出的可能性为问题分析提供一个连贯的理论,并将该理论应用于广泛地重要缺失数据问题。
[4] PR Rosenbaum, DB Rubin.(1983) The central role of the propensity score in observational studies for causal effects. Biometrika, 70(1), 41-55.
在 Donald Rubin 早期因果推断的文献中,推崇的方法是“匹配”(matching)。如果观测协变量的维数较高,匹配就很难实现了。Paul Rosenbaum在哈佛统计系读PhD期间,在Rubin课上问到了这个问题,就促进了两人合作了这篇文章。这篇文章主要介绍了在观察性研究中,倾向评分的作用。我们应该根据倾向得分来“设计”观察性研究;按照倾向得分将人群进行匹配,形成一个近似的“随机化试验”。
[5] Rubin, D.B. (1978) Bayesian inference for causal effects: The role of randomization. The Annals of Statistics, 6, 34-58.
[6] Rubin, D. B. (1976) Inference and missing data. Biometrika, 63, 581-592.
本次读书会也将参考W. Imbens和B. Rubin的著作Causal Inference for Statistics, Social, and Biomedical Sciences作为基础理论学习主要阅读书目,欢迎大家根据本书内容积极讨论!
讨论环节
讨论环节
本次分享邀请到北京大学周晓华教授、厦门大学赵西亮教授和清华大学崔鹏老师与Rubin对话讨论。
周晓华与潜在结果因果推断模型创始人美国科学院院士Donald Rubin教授有超过30年的合作。创办并组织召开三届太平洋因果推断会议(Pacific Causal Inference Conference),为因果推断最新数学成果的国际性交流和发展做出重要贡献。
在《经济研究》、《经济学》(季刊)、《数量经济技术经济研究》、《WorldEconomy》等国内外重要期刊发表论文十余篇。China Economic Review, 《经济研究》、《管理世界》、《经济学(季刊)》、《世界经济》等国内外重要期刊匿名审稿人。
崔鹏,清华大学长聘副教授,于2010年获得清华大学博士学位,研究兴趣包括大数据环境下的因果推理与稳定预测、网络表征学习,及其在金融科技、智慧医疗及社交网络等场景中的应用。他在数据挖掘和多媒体领域的著名会议和期刊上发表了100多篇论文,并先后获得7项国际会议及期刊最佳论文奖。他于2015年获得ACM中国新星奖,并于2018年获得CCF-IEEE CS青年科学家奖,目前是CCF的杰出会员以及IEEE的高级会员。
主持人:杨二茶,清华大学经济管理学院博士在读,研究领域:创新创业,因果推断和社会网络分析。
直播信息
直播信息
时间:
2021年10月22日晚上9:00-11:00
参与方式:
-
集智俱乐部 B 站免费直播
-
扫码获取Zoom房间号可直接开麦与主讲人交流
-
付费参加读书会,加入群聊,获取系列读书会回看权限,成为因果社区种子用户,与900余位社区的科研工作者沟通交流,共同推动因果科学的发展。
因果科学读书会第三季启动
因果科学读书会第三季启动
读书会大纲一览:
Donald Rubin:Essential Concepts of causal inference
因果推断在观察性研究中的应用(续):ANALYSIS
因果与公平性和可解释性
「深入理论学习」
评论区留下你想与Rubin交流的问题,小编会选择一些问题在第一期读书会中向Rubin提问,欢迎大家加入直播一起讨论!
点击“阅读原文”,报名读书会