周晓华:因果推断的数学基础和在医学中的应用
导语
因果性在相关性的基础上更进一步:相关性可以由观察到的变量联合分布来描述,而对于因果性的分析需要知道数据的生成机制,或者条件改变时变量分布的变化。本文整理自周晓华老师于2021年1月2日在集智俱乐部学术年会的分享。
周晓华老师是北京大学讲席教授、北京大学北京国际数学研究中心生物统计和信息研究事室主任、北京大学国家药品器械监管科学研究院副院长,研究方向是缺失数据、因果推断分析、大数据分析、半参数模型、医学检验卫生经济、卫生服务领域发展新的统计方法。
周晓华 | 讲者
邓宇昊 | 整理
邓一雪 | 编辑
1. 因果推断的数学基础
一种新药在特定人群中是否有效?犯罪率改变是否是有政策引起的?从公立学校换到私立学校能否提高学习成绩?这些都是因果推断的问题。事实上,仅仅依靠数据,我们是无法回答上述问题的。很多时候,数据生成机制对观测者是未知的,因此我们只能观察到相关性。因果性在相关性的基础上更进一步:相关性可以由观察到的变量联合分布来描述,而对于因果性的分析需要知道数据的生成机制,或者条件改变时变量分布的变化。
如何用数学语言来描述进行因果分析呢?Rubin因果模型包含四个部分:(U,K,Y,Z),其中,U是个体,K是一组可能的处理集合,Y是从K×U到实数的映射,Z是从U到K的映射,表示个体实际接受的处理。个体u在处理t下的潜在结果记作Yt(u)。对于个体u来说,处理t相对于处理c的作用是Yt(u)-Yc(u);对于整个人群来说,平均的因果作用就是E[Yt(u)-Yc(u)]。因果推断的基本问题是,这两种潜在结果Yt(u)和Yc(u)是无法同时观测的,因此我们必须依赖于额外的假设或条件才能识别出因果作用。
统计学家Fisher曾提出随机化的概念。在一个随机化试验中,每个个体都被随机地分配到两种处理方案中的一种,那么平均因果作用就可以识别了。在随机化试验中,潜在结果可以转化为观测结果,即E[Yt(u)]=E[Y(u)|Z=t],因此平均因果作用可以用观测数据来估计。
但实际上,随机化条件有可能被破坏。例如,(1) 非依从性:患者并没有按照原来安排的治疗方案进行治疗;(2) 缺失数据:没有观察到结局(结局有定义);(3) 死亡截断:在收集到结局之前患者死亡(结局无定义)。
2.非标准条件下的因果推断之非依从性[1]
用Zi表示第i个个体被随机分配的处理方案,Di(Zi)表示个体i是否依从于分配(实际接受的处理),Yi(Zi,Di(Zi))表示潜在结果。在处理效应稳定假设(SUTVA)——个体之间不会互相干扰——下,Z对Y的个体因果作用为Yi(1,Di(1))- Yi(0,Di(0)),Z对Y的平均因果作用(意向治疗作用)为E[Yi(1,Di(1))- Yi(0,Di(0))]。如果我们关心的是D对Y的因果作用,也就是实际接受的处理对结局的因果作用,我们还需要更多的假设。
首先,我们把人群分为四层:依从组c(Di(z)=z)、永远服药组a((Di(z)=1))、永不服药组n(Di(z)=0)、绝不依从组d(Di(z)=1-z)。只有c组和d组包含了两种处理方案的结局数据,因此只能在这两组中定义因果作用,以c组为例,考虑依从组平均因果作用CACE= E[Yi(1,1)- Yi(0,0)]。观察到的数据为:分配方案Zi、实际接受的处理Di=Di(Zi)、结局Yi=Yi(Zi)。需做如下假设:
(1) 可忽略性假设,即两种潜在结果和分配方案独立;(2) 单调性假设,即Di(1)≥Di(0),不存在d组;(3) a组和d组的排他性约束假设,即a组和d组的两种潜在结果相等。
下面我们用一个实际例子来说明带非依从性的因果推断。为了研究流感疫苗的作用,实施一个激励试验。这里,分配的方案是鼓励疫苗、不鼓励打疫苗,但被鼓励打疫苗的人仍有可能不打疫苗,未被鼓励打疫苗的人也有可能打疫苗。传统的意向治疗分析师有问题的,因为这种做法得到的是鼓励打疫苗的作用,而不是实际打疫苗的作用。用工具变量把人群分层后,估计依从组的因果作用,才能代表打疫苗的真实作用。
周晓华和他的同事解决了随机临床试验中存在非依从性和不可忽略的结局缺失时研究参数的可识别性问题,提出了针对非依从性的贝叶斯分析方法,证明了在不同类型的完全不可忽略缺失数据下(即缺失机制依赖于结局),满足一定条件时,感兴趣的因果参数是可识别的,同时推导出了参数的最大似然估计和矩估计,并分析了它们在有限样本中的性质。
3.非标准条件下的因果推断之死亡截断[2,3]
和非依从性类似,死亡截断也会破坏经典的因果分析假设。在临床试验中,一些个体可能在收集到结局之前就发生死亡,这一现象被称为死亡截断。需要特别强调的是,死亡截断与缺失数据是两个完全不同的问题:前者的结局没有定义,而后者的结局有定义、只不过是未被观察到罢了。
用Zi表示第i个个体被随机分配的处理方案(假设个体依从于分配方案),Si(Zi)表示个体i的潜在存活状态(1表示存活,0表示死亡),Yi(Zi)表示潜在结果(如果Si(Zi)=1),用Xi表示协变量。仍然利用主层分析的方法,把人群分为四层,用G表示:永远存活组LL(Si(z)=1)、永远死亡组DD(Si(z)=1)、有益组LD(Si(z)=z)、有害组DL(Si(z)=1-z)。只有永远存活的LL组,其因果参数是有意义的,因为对于其他组来说,两个潜在结果至少有一个是无定义的。因此,我们关心永远存活组的平均因果作用SACE=E[Yi(1)-Yi(0)|G=LL]。
类似地,为了识别存活组平均因果作用,需要做出额外的假设:关于S和Y的可忽略性假设、单调性假设、排他性约束假设、替代相关性假设。通过工具变量对人群分层,进而使用参数模型估计出存活组的因果作用。在单调性假设下,有害组DL组被排除了。如果要放宽单调性假设,可将其替换为随机单调性假设,也就是允许DL组的存在,但需要事先给定Si(1)、Si(0)和LL组之间的概率关系。
周晓华和他的同事在国际上率先提出了用于超过三个组别且存在死亡截断的多处理随机临床试验的统计方法。此外,周晓华和他的同事还发展了新的推断方法来检验总体治疗效果,并且证明了该方法在大样本下的收敛性,完善了大样本下该方法的统计理论。周晓华和他的同事还提出了适用于结果是二分类和连续型变量的情形下,在非参数和半参数模型中识别感兴趣因果参数SACE的方法。证明了SACE在部分正则假设下可识别的数学性质,同时提出当违背部分假设时,减少估计偏差的统计方法和理论。
4.中介分析[4]
在一些问题中,干预和结局之间可能存在中介。用T表示治疗方案,M表示中介,Y表示结局。这时,从T到Y存在两条路径:一条是从T直接到Y,称为直接因果作用;另一条是从T经过M再到Y,称为间接因果作用。
例如,在关于大学生酗酒的研究中,受试者被随机分配到三种方案T之一:放松(对照)、酒精扫描+干预、酒精扫描+干预+情绪控制技术,中介M是情绪控制能力,结局Y是3个月后的抑郁得分。经典的中介分析方法需要很强的序列可忽略行假设,要求中介和结局之间不能存在混杂。周晓华和合作者放宽了序列可忽略性假设,提出的新方法允许中介和结局之间存在混杂,并且允许存在缺失数据。
5.个性化治疗[5,6]
个性化治疗(或精准医疗)与因果推断有着密切的关系。精准医疗旨在根据患者的特征,选择恰当的治疗方案,达到治疗收益的最大化。但是,同一位患者一次只能接受一种治疗,我们无法同时观察到患者接受不同治疗的结果。用因果推断的语言说,设X表示患者的协变量,Z为治疗方案,可以取Z=0或1,用Y(z)表示患者接受治疗z后的潜在结果。精准医疗却需要根据协变量特异因果作用E[Y(1)-Y(0)|X]选择相应的治疗方案。具体而言,假设潜在结果数值越大表示患者收益越大,那么如果上面的协变量特异因果作用大于0,就选择Z=1,否则选择Z=0。这样,我们可以从理论上把精准医疗转化为因果推断问题。
给定潜在结果的单指标模型,在一些假设下就可以识别出协变量特异因果作用。比如,当我们比较中药和西药的疗效时,可能会发现当生物标志物在一定范围内(c1<X<c2)时,中药治疗比西药治疗更有效,否则西药治疗更有效。这样,我们能画出一条曲线,用于描述中药相对于西药的因果作用随生物标志物变化的情形,即协变量特异因果作用曲线,这条曲线在临床应用中为研究者提供了很大便利。
在最优个性化治疗规则的因果作用估计方面,周晓华和他的同事首次提出使用生物标志物调整效应曲线(BATE)、协变量特征的治疗效果曲线(CSTE)来表示给定生物标志物水平下的条件平均处理效应,并为每个病人选择最优治疗方案,同时严格证明了新提出统计方法的数学性质。针对治疗结果为二分类变量时,周晓华和他的同事提出采用B样条方法估计CSTE 曲线,采用Hotelling tube方法估计CSTE曲线置信带的新统计方法及理论,定义并推导出二值响应变量数据的CSTE曲线可表示为优势比的对数,同时利用B样条方法估计广义变系数模型的系数,并推导出该方法的大样本数学性质。
参考文献
[1] Keisuke, H. , Imbens, G. W. , Rubin, D. B. , & Xiao-Hua, Z. . (2000). Assessing the effect of an influenza vaccine in an encouragement design. Biostatistics.
[2] Wang, L. , Zhou, X. H. , & Richardson, T. S. . (2016). Identification and estimation of causal effects with outcomes truncated by death. Biometrika.
[3] Wang, L. , Richardson, T. S. , & Zhou, X. H. . (2017). Causal analysis of ordinal treatments and binary outcomes under truncation by death. Journal of the Royal Statistical Society: Series B (Statistical Methodology).
[4] Zheng, C. , & Zhou, X. H. . (2015). Causal mediation analysis in the multilevel intervention and multicomponent mediator case. Journal of the Royal Statistical Society Series B, 77. [5] Zhou, X. H. , & Ma, Y. B. . (2012). Bate curve in assessment of clinical utility of predictive biomarkers. Science China Mathematics.
[6] Ma, Y. , & Zhou, X. H. . (2017). Treatment selection in a randomized clinical trial via covariate-specific treatment effect curves. Statistical Methods in Medical Research.
录播地址
https://campus.swarma.org/course/2324
推荐阅读
什么是因果推断 | 集智百科张江:从图网络到因果推断,复杂系统自动建模五部曲借助因果推断,更鲁棒的机器学习来了!
加入集智,一起复杂!
点击“阅读原文”,追踪复杂科学顶刊论文