导语


在集智俱乐部因果科学读书会第三季中国科学技术大学统计学博士龚鹤扬介绍了因果树、因果森林及快手的大规模多元因果森林模型。因果树模型的主要贡献是“诚实” (Honest) 的方法,使用非训练样本估计模型的局部参数。相较于传统的“自信” (Adaptive) 的方法,“诚实”的方法有较好的泛化能力。广义随机森林以因果树模型为基础,结合所关注的特定问题,构建算法框架。快手的大规模多元因果森林可以对单一一个模型同时处理任意种干预手段,同时HTE的定义要求各干预手段对应一致的特征子空间。本文是根据此次分享整理的文字稿。


随着“因果革命”在人工智能与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。新一季的因果表征学习读书会已经启动,欢迎从事相关研究的各界朋友参与。

 

研究领域:因果树模型,因果森林

龚鹤扬 | 讲者

贾潍佳 | 整理

邓一雪 | 编辑


 



1. 因果树




因果树模型是什么?因果树模型是对条件因果效应的估计。一棵典型的因果树如图所示:

图1. 因果树示例

模型的学习能力非常有限, 一个简单的代码实现如下:

图2. 因果树代码实现示例

通用的评估方式是AUUC:

图3. AUUC示例

因果树模型的主要贡献是“诚实”(Honest)的方法[1]。因果树模型的两个核心问题:一是如何分割特征空间,二是如何估计子空间上的因果效应。“诚实”的方法就是说,将一半的样本用于树的生成,确定分割特征空间的准则,另一半的样本用于树的叶子结果预测,估计子空间上的因果效应,用于控制树的复杂度。相较于传统的“自信”(Adaptive)的方法,“诚实”的方法有较好的泛化能力,这类似于机器学习中交叉验证的思想。

那么,为什么要用“诚实”的方法而不直接使用交叉验证?一方面,因为使用的样本是独立的,因此在估计子空间上的因果效应时,使用“诚实”的方法得到的结果会是无偏的。另一方面,实验结果显示,“诚实”的方法相较于非“诚实”的方法能够覆盖更大的置信区间。也就是说,因果树具备良好的统计性质。




2. 广义随机森林




广义随机森林使用统计理论提升机器学习算法,在置信区间上取得了优化。其算法框架如下:

图4. 广义随机森林算法框架

广义随机森林的创新点有:1. 总体思想是使用“诚实”的方法,“诚实”地估计局部参数;2. 利用算法本身的信息进行估计,例如,基于随机森林的权重进行估计、利用得分函数进行估计等。

在利用得分函数进行估计时,工具变量的结构信息及其得分函数如下:

图5. 工具变量法的因果图

图6. 工具变量的得分函数

综上,因果树区别于普通的机器学习树模型的点在于,估计的内容是子空间的因果效应,与增益树的最大区别在于“诚实”的方法避免了过拟合。




3. 从因果树到广义随机森林




因果树的主要贡献是采用“诚实”的方法,使用非训练样本估计模型的局部参数;因果森林的主要贡献是首次将统计学可证明的方法引入模型,其中,广义随机森林是结合所关注特定问题结构的机器学习树类模型的算法框架。




4. 快手的大规模多元因果森林[2]




智能营销要研究的核心问题是,用户对不同补贴额度的转化效果差异有多大?这些不同的补贴额度可以被看作是因果推断中的 treatments,所以场景驱使研究者去研究用户在不同 treatments 下的转化效果,即需要多元因果模型。

为此,快手的研究者们提出了多元因果森林模型,模型结构如图 7所示。其主要的优化内容,一是适应业务特别的改造,二是分配算法的速度优化,三是适应问题的评估方法。

图7 多元因果森林模型

该模型结构有两个优点:第一,单一一个模型能够同时处理任意种干预手段,否则,几种干预手段就需要维护相应数量的二元因果森林模型;第二,HTE 的定义要求各干预手段对应一致的特征子空间,该模型结构保证了这一点,这对准确估计 HTE 至关重要。




5. 论文推荐




Causal Forest 相关文献

  1. Athey S, Imbens G. Recursive partitioning for heterogeneous causal effects[J]. Proceedings of the National Academy of Sciences, 2016, 113(27): 7353-7360.

  2. Wager S, Athey S. Estimation and inference of heterogeneous treatment effects using random forests[J]. Journal of the American Statistical Association, 2018, 113(523): 1228-1242.

  3. Athey S, Tibshirani J, Wager S. Generalized random forests[J]. The Annals of Statistics, 2019, 47(2): 1148-1178.

  4. Athey S, Imbens G W. Machine learning methods that economists should know about[J]. Annual Review of Economics, 2019, 11: 685-725.

  5. Tran C, Zheleva E. Learning triggers for heterogeneous treatment effects[C]//Proceedings of the AAAI Conference on Artificial Intelligence. 2019, 33(01): 5183-5190.

  6. Evidence-Based Policy Learning(CLeaR 2022 Oral)

  7. Nandy P, Yu X, Liu W, et al. Generalized Causal Tree for Uplift Modeling[J]. arXiv preprint arXiv:2202.02416, 2022.

  8. Tan X, Chang C C H, Tang L. A tree-based federated learning approach for personalized treatment effect estimation from heterogeneous data sources[J]. arXiv preprint arXiv:2103.06261, 2021.

  9. Zeng S, Bayir M A, Pfeiffer III J J, et al. Causal transfer random forest: Combining logged data and randomized experiments for robust prediction[C]//Proceedings of the 14th ACM International Conference on Web Search and Data Mining. 2021: 211-219.

因果之梯: 结构因果模型文献推荐

  1. Pearl J. The seven tools of causal inference, with reflections on machine learning[J]. Communications of the ACM, 2019, 62(3): 54-60.

  2. Schölkopf B. Causality for machine learning[M]//Probabilistic and Causal Inference: The Works of Judea Pearl. 2022: 765-804.

  3. On Pearl’s Hierarchy and the Foundations of Causal Inference

  4. Bongers, Stephan, et al. “Foundations of structural causal models with cycles and latent variables.” The Annals of Statistics 49.5 (2021): 2885-2915.


参考文献

1. Athey S, Imbens G. Recursive partitioning for heterogeneous causal effects[J]. Proceedings of the National Academy of Sciences, 2016, 113(27): 7353-7360.

2. Ai M, Li B, Gong H, et al. LBCF: A Large-Scale Budget-Constrained Causal Forest Algorithm[C]//Proceedings of the ACM Web Conference 2022. 2022: 2310-2319.


因果表征学习读书会启动


随着“因果革命”在人工智能与大数据领域徐徐展开,作为连接因果科学与深度学习桥梁的因果表征学习,成为备受关注的前沿方向。以往的深度表征学习在数据降维中保留信息并过滤噪音,新兴的因果科学则形成了因果推理与发现的一系列方法。随着二者结合,因果表征学习有望催生更强大的新一代AI。


集智俱乐部组织以“因果表征学习”为主题、为期十周的读书会,聚焦因果科学相关问题,共学共研相关文献。欢迎从事因果科学、人工智能与复杂系统等相关研究领域,或对因果表征学习的理论与应用感兴趣的各界朋友报名参与。集智俱乐部已经组织三季“因果科学”读书会,形成了超过千人的因果科学社区,因果表征学习读书会是其第四季,现在加入读书会即可参与因果社区各类线上线下交流合作。



详情请见:
连接因果科学与深度学习的桥梁:因果表征学习读书会启动



推荐阅读



点击“阅读原文”,报名读书会