导语


Judea Pearl认为当下正在进行着一场改变数据科学的“因果革命”。因果革命借鉴结构性因果推理模型,涉及从数据到政策、可解释性、机制的泛化,再到社会科学中的基础概念归因和公平性,甚至哲学中的创造性和自由意志。因果推理和机器学习融合构建具有自动化推理的Causal AI系统,是实现强人工智能的关键步骤。

本次读书会邀请到浙江大学况琨老师、吴安鹏和袁俊坤两位博士生从工具变量的视角,介绍如何利用机器学习赋能大数据因果推断。报告将从因果推断的工具变量视角出发,探讨领域泛化问题中存在的偏差问题,并提出因果可泛化学习机制。





背景




现阶段机器学习尤其是深度学习的主要特点在于数据驱动、关联学习和概率输出,导致模型普遍存在预测不稳定和不可解释等问题。我们认为这些问题的主要根源在于因果机制尚未融入机器学习。因此,我们需要从关联分析跨越到因果推理,将因果引入机器学习,从而实现模型的可解释性和稳定性。


大数据因果推断是实现从关联分析跨越到因果推理的核心一环。当因果推断遇上大数据,会面临高维连续变量,混淆变量观测不全等诸多挑战,导致传统因果推断方法在大数据环境下失效。如何利用机器学习和深度学习的技术,发挥数据优势、激发算法潜能,是实现大数据因果推断的核心。这次报告,我们主要从工具变量视角,给大家介绍如何利用机器学习赋能大数据因果推断。


另一方面,因果关系的可解释性和稳定性也给机器学习的可泛化性带来了可能。我们训练机器学习模型的数据往往是有偏的,如混淆偏差和选择偏差等,导致变量之间存在不稳定且不可解释的虚假关联。消除虚假关联,恢复因果关联是实现可解释可泛化机器学习的关键。这次报告,我们主要从因果推断中的工具变量视角出发,探讨领域泛化问题中存在的偏差问题,并提出因果可泛化学习机制。





内容简介




本次报告分为大数据因果推断的挑战和如何利用工具变量实现因果可泛化学习机制两部分展开讨论。


第一部分将从解耦表征学习的角度出发,将观察性研究中涉及的协变量区分为工具变量、混淆变量、调整变量三部分。报告将探讨在非混淆性假设不成立时,如何从观察性数据中基于一定先验假设进行简单工具变量识别的方法。最后我们给出了一种结合混淆平衡方法和工具变量方法的最新研究,能够同时消除观察到的混淆变量和观察不到的隐变量带来的混淆偏倚。


第二部分将从因果的角度探讨领域泛化问题,引入工具变量的思路解决领域泛化中关键性的域不变关系学习问题,从多个源域中学习出稳定的因果关系,提升模型在未知数据域上的泛化表现。





主讲人 




况琨,浙江大学计算机科学与技术学院副教授,博士生导师,研究方向包括因果推理、人工智能、因果指导的可信机器学习。


吴安鹏,浙大计算机在读直博生,研究因果推断,解耦表征和Proxy/Latent Variable。


袁俊坤,浙大计算机在读直博生,研究迁移学习、领域泛化、因果推断。





直播信息




时间:

2021年12月19日上午9: 00-11: 00


参与方式:

  • 文末扫码参加读书会第三季,加入群聊,获取系列读书会回看权限,成为因果社区种子用户,与900余位社区的科研工作者沟通交流,共同推动因果科学的发展。
  • 集智俱乐部 B 站免费直播,扫码可预约。

扫码预约



因果科学读书会第三季启动


由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,将主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。读书自2021年10月24日开始,每周日上午 9:00-11:00举办,持续时间预计 2-3 个月。

读书会大纲一览:

Donald Rubin:Essential Concepts of causal inference

「基础理论学习」
因果推断的潜在结果框架在实验性研究的应用
因果推断在观察性研究中的应用:DESIGN

因果推断在观察性研究中的应用(续):ANALYSIS

「案例研讨」
医学、药学、生物学中的研究案例
管理学、经济学、社会学及政治学中的研究案例
因果随机森林及其在工业界的应用
多级治疗与连续性暴露
因果推荐系统
因果在自然语言处理中的应用

因果与公平性和可解释性

「深入理论学习」

双稳健估计、处理极端倾向得分的方法
阴性对照试验
高维因果推断
结合随机化试验数据与观察性数据



点击“阅读原文”,报名读书会