导语


赋能模型针对分布外数据稳定泛化的能力已经成为了工业界和学界共同关注的热点问题。因果推理在稳定学习这一核心问题中起着重要作用,其主旨思想是通过寻找直接影响预测结果的因果变量来实现跨域稳定的不变预测。浙江大学计算机学院况琨老师课题小组结合最新研究工作,介绍因果指导的稳定机器学习。本文针对成对变量解耦式的机器学习,总结了目前稳定学习的进展和不足之处,并结合先验因果结构,提出了基于种子变量的稳定学习框架。

 

研究领域:因果推理,机器学习

浩天 | 作者

邓一雪 | 编辑





 



1. 分布变化下的医疗诊断




在美国,模型设计者需要根据医院数据来预测癌症患者的生存率。由于条件限制,很难拿到所有医院的数据。假设拿到了位于曼哈顿某一个高档医院的数据来训练网络,可能会发现在该医院中病人的收入越高,病人的幸存率也会越高:因为收入高的病人得到的治疗和能支付起的药物可能更好。基于这样的模型做预测时,如果未来的要预测的病人同样是来自该医院的患者,模型可能会得到很准确的预测结果。但是如果未来要预测的数据集来自大学校医院(比如美国的校医院,对患者给予的救治不由收入决定),此时模型的预测效果很可能不好。


这驱使我们提出疑问:当现实数据不能够达到公开基准数据的质量、不能够包括所有可能的潜在分布的时候,如何面向所有潜在测试群体的预测任务,设计泛化预测能力强的模型


 



2. 机器学习的分布外泛化问题




(1)机器学习中的分布外泛化性需求


目前的统计机器学习方法要求从同一个分布中随机抽样得到训练数据和测试数据,即训练数据和测试数据的概率分布相同。在这一假设下,传统理论已经说明了许多现有的机器学习模型的泛化性能可以随着模型容量的增加而得到保障。然而,在真实场景下,独立同分布假设过于理想,我们实际上并不能保证训练数据和测试数据一定符合某种分布。


在开发学习模块的过程中,我们会使用某种训练数据,但是当我们将开发好的模块应用到各种实际场景下时,实际输入数据的分布可能相较于训练数据存在系统性的偏移,如图1所示。当测试数据分布与训练数据分布有系统性偏移时,模型的性能可能降至非常低的水平。


事实上,机器学习模型的部署中测试数据往往是不可见的,这使得现有的迁移学习方法无法使用,进而模型在未知的测试环境下性能无法保证,进而模型本身的部署价值受到影响。因此,我们需要考虑机器学习模型在分布外泛化下的预测问题,当模型被部署到未知的、可能带有分布漂移的测试环境下时,我们需要保证模型具有较好的、稳定的预测性能[1][2]。


图1. 模型分布外预测的不稳定性

(2)稳定学习:面向选择偏差的单环境分布外泛化

与此同时,一种新的学习范式,即稳定学习近几年得到了长足的发展。其基本假设与上述训练环境异质性的问题设定不同,将所有训练数据当做一个domain,即允许单环境下的分布外泛化。稳定学习将模型学习到的数据关联性分为三个种类:因果关联,混杂因子引起的关联和选择偏差引起的关联。

其中因果关联是不会随着环境的变化而变化的(比如下雨会导致地面湿,这在任何城市和国家都是成立的),是稳定且可解释的。而选择偏差描述的就如上述草地和狗的相关性现象,我们通过样本选择,使得草地和狗十分相关;同样也可以使得沙滩等其它背景与狗十分相关。这种关联会随着数据集和环境变化而变化。混杂因子引起的关联描述的是由于忽略某些混淆变量导致的关联。

通过混杂因子引起的关联选择偏差产生的关联是不稳定且不可解释的,我们称这两种相关性为虚假关联。传统方法预测不稳定且不可解释的主要原因就在于其没有区分因果关联与虚假关联,笼统地将所有关联都用于指导模型学习和预测。为了增强机器学习模型的预测稳定性和可解释性,稳定学习提出了用因果约束指导机器学习的方法,具体想法是去除关联中的虚假关联,恢复因果关联,使用因果关联指导模型学习。




3. 基于协变量平衡的稳定学习




基于因果效应估计中,将干预变量和混杂变量独立的重加权技术,[1] 提出了因果正则项,其主要思想是学习一个样本权重,用它对样本做重加权,使得重加权之后的变量之间相互独立,以此帮助我们评估单个变量对结果变量的因果关系,并且在理论上可以证明这样的样本权重是存在的。以浅层模型为例,其损失函数是基于潜在得分逆加权的平均因果效应估计框架设计的:



基于因果效应估计的协变量一阶矩/分布平衡启发,[3]提出了基于协变量分布平衡的DWR方法,其利用重加权方式实现协变量的一阶矩平衡,其实现方式是通过对成对变量进行一阶矩匹配,使得损失函数最小化来实现变量的去相关。进而,基于成对去相关的协变量,非因果变量和因果变量之间自然也被解耦,从而实现了稳定的预测效果:





4. 基于因果结构和种子变量的稳定学习




上述基于协变量平衡在特征维数较大的时候,不一定能够找到一组权重实现成对的完美去相关,这促使我们将数据的生成机制作为先验的因果图机制引进来,实现精确的因果特征-非因果特征之间的解耦合。

(1)先验因果假设

首先,本文考虑基于选择偏差引起的训练-测试数据之间的分布漂移,即潜在的测试数据分布是数据在收集的时候,某些非因果特征和输出变量产生了选择偏差所导致:

图4. 先验的因果假设示意图

根据图4,所有的变量可以分为三类:因果变量C,和C邻接的非因果变量L和与C独立的非因果变量I。进而,本文引入了因果不变性假设作为特征选择的基础,即假设存在特征的子集作为输出变量的直接因果变量,其对输出变量的预测是跨域稳定并且不变的。这样的因果不变性假设刻画了输出变量基于因果变量的条件分布的跨域稳定性质,为后面的方法提供了理论的保证。进一步地,我们假设一个因果变量被作为先验知识一起给出,即C0∈C被给定,这一假设很容易满足,即在常识上对于输出变量有最直接影响的预测变量被指定为C0。如果没有先验给出,那么也可以通过一些因果效应估计的方法来筛选出效应最大的变量作为C0

(2)条件独立性原则

进而,根据图4所示,结合因果图和其D-分割性质,我们得到如下结论:

给定先验因果变量C0,可以发现,对于每个不属于C的非因果变量Ii,通过条件独立性Ii⊥C0/Y的准则可以判定出来。由于我们的目标是去除掉不稳定的非因果变量I,因此,算法1被设计出来:

算法1:Top-k因果变量选择

上述算法即通过对于每一个候选的预测变量和先验因果变量C0在给定输出变量Y下做条件独立测试,将得到的p值做排序并进行筛选得到Top-k的预测变量。对于条件独立性测试准则,我们选择了BNCI[3]和RCIT[4]两种方法做实现。

(3)稳定学习和变量选择的评估指标

首先,对于知晓因果结构的仿真数据集,给出如下的因果评测指标:


其评价了因果特征选择的准确性;

其次,对于未知环境下的泛化预测效果,其准确性和稳定性被如下两个指标给出:


(4)实验评测

基线方法:文章对比了包括最小冗余关联 (mRMR) 和LASSO在内的关联性方法;包括PC_simple和基于效应估计在内的因果方法;包括ICP和GBA在内的多环境/单环境稳定预测方法。

仿真数据:基于图4,我们设计了对应的SCM模型来诱导出数据,详细的SCM方程请见原文,其中数据规模n=2000,数据维度p∈{10, 20, 40, 80}。为了模拟现实世界中数据选择导致的分布变化,我们通过控制r来调整非因果变量和输出变量之间的伪相关强度。图5和表1展示了实验结果:

图5. 在n=2000,p=20下的稳定预测效果

表1. 在n=2000下的变量选择效果

可以看到,从变量选择的角度来看,本文的方法实现了较为精准的因果特征选择精度,其余的方法在各个特征维度下总会将部分非因果特征误选进来并用作预测;对应的,从稳定预测的角度来看,本文的方法在选择偏差导致的训练/测试分布漂移下取得了较好的效果:其在选择偏差强度变量r的变化下能够实现较好的预测稳定性和准确性。

真实数据:进一步地,我们在没有真实因果图结构的数据上,即域泛化和稳定学习常用的Parkinson疾病数据集和Kaggle房价预测数据集,做了进一步的测试。为了诱导不同测试环境和训练环境之间的分布漂移,我们同样利通过控制r来生成选择偏差。如图6、图7所示,本文提出的方法在不同环境、不同选择变量个数下均取得了远胜于其余方法在分布外预测上的稳定性和优越性,这体现了通过因果变量选择成功去除了选择偏差引起的分布漂移。

图6:Parkson数据集,不同环境下的预测结果

图7:Kaggle数据集,不同环境下的预测结果




5. 展望与总结




本文提出了一种基于部分先验因果信息的稳定学习方法,该先验信息较弱并且易获得。基于这一先验信息,本文通过条件独立性来进行因果变量的筛选,并且基于因果不变性原理可以实现分布外的稳定预测效果。

参考文献

[1] Kun Kuang, Peng Cui, Susan Athey, Ruoxuan Xiong and Bo Li. Stable Prediction across Unknown Environments. In SIGKDD Conference on Knowledge Discovery and Data Mining (KDD), 2018.

[2] Zheyan Shen, Peng Cui, Kun Kuang* and Bo Li. Causally Regularized Learning on Data with Agnostic Bias. In ACM Multimedia (MM), 2018.

[3] Kun Kuang, Ruoxuan Xiong, Peng Cui, Susan Athey, and Bo Li. Stable Prediction with Model Misspecification and Agnostic Distribution Shift, In AAAI Conference on Artificial Intelligence (AAAI), 2020.

[4] M. Scutari, “Learning bayesian networks with the bnlearn r package,” arXiv preprint arXiv:0908.3817, 2009

[5] E. V. Strobl, K. Zhang, and S. Visweswaran, “Approximate kernelbased conditional independence tests for fast non-parametric causal discovery,” Journal of Causal Inference, vol. 7, no. 1, 2019

因果科学千人社区欢迎加入


由智源社区、集智俱乐部联合举办的因果科学与Causal AI读书会第三季,主要面向两类人群:如果你从事计算机相关方向研究,希望为不同领域引入新的计算方法,通过大数据、新算法得到新成果,可以通过读书会各个领域的核心因果问题介绍和论文推荐快速入手;如果你从事其他理工科或人文社科领域研究,也可以通过所属领域的因果研究综述介绍和研讨已有工作的示例代码,在自己的研究中快速开始尝试部署结合因果的算法。读书会详情及参与方式见文末,欢迎从事相关研究或对因果科学感兴趣的朋友参与。



详情请见:

因果+X:解决多学科领域的因果问题 | 因果科学读书会第三季启动



推荐阅读



点击“阅读原文”,报名读书会