导语


时态数据中的因果发现在工业、医学、金融等领域有着广泛的应用,本次分享来自中科院的姚迪老师将介绍时态数据因果发现的最新发展,包括时间序列与事件流数据的因果发现方法。微软亚洲研究院的研究员王露提出了基于人类专家反馈的强化学习方法,用于构建cloud中各个服务的因果关系图,并已成功应用于Microsoft M365 Exchange服务的异常诊断。


因果科学读书会第四季主要围绕因果表征学习引论、理论基础、技术框架,以及在机器学习领域和在工业界中的具体的应用进行深度探讨,系统梳理因果表征学习领域并促进相关的研究。自2022年12月31日开始,每周六晚上20:00-22:00举办,持续时间预计 10 周。欢迎对本话题感兴趣的朋友报名参加!






分享简介




本次分享将会从时态数据因果发现的综述、相关工作、及其工业场景的应用,为大家全方位的介绍时序因果的最新发展。


1. 时态数据中的因果发现在工业、医学、金融等领域有着广泛的应用。时态数据可被分为时间序列(time series)数据与事件流(event stream)数据。之前的综述仅关注于时间序列中的因果发现方法,而忽略了事件流中的因果发现这一富有研究与应用价值的领域,中科院计算所姚迪副研究员及其研究团队系统性地梳理两大类因果发现方法。同时,归纳整理了时序数据因果发现的见解与未来发展方向。


2. 同时,微软亚洲研究院的研究员王露将会讨论如何将人类的反馈注入到因果发现中,并帮助大型动态微服务系统的故障诊断。该框架第一次提出基于人类专家反馈的用强化学习的方法来构建cloud中各个服务的因果关系图。同时,为了减少专家的标注复杂度,提出了层次强化学习方法,让专家标注复杂度可以达到O(1)。该框架已经成功地应用于Microsoft M365 Exchange服务,并在真实数据集和注入异常的合成数据集上取得了异常诊断的显著提升。




分享内容大纲




  • 时态数据因果发现综述

  • 从多变量时间序列中发现因果关系

  • 事件流中的因果发现

  • 因果在故障诊断中相关应用

    • 简述强化学习中的因果发现

    • 从人类反馈中的强化学习

    • 因果故障诊断

    • 工业应用




主要涉及到的知识概念




  • 因果发现 Causal Discovery

  • 时态数据分析Temporal Data Analysis

  • 关系式学习Relational Learning

  • 时间序列 Time Series

  • 强化学习 Reinforcement Learning

  • 根因分析 Root Cause Analysis

  • 人类反馈利用 Human Feedback Untilization

  • RLHF Reinforcement Learning from Human Feedback





主持人简介




姚迪,中国科学院计算技术研究所副研究员,主要研究方向为时序数据挖掘,异常检测,因果机器学习等。2019年博士毕业于中科院计算所,2017-2018年赴新加坡南洋理工大学交流访问。在ICDE,TKDE, WebConf,CIKM等顶级学术会议和期刊发表论文20余篇,受邀担任TKDE、TON、TKDD、TIST、IJGIS等顶级期刊审稿人。


王露,Microsoft 研究员,博士毕业于华东师范大学,研究方向为强化学习,graph representation learning,cloud intelligence,healthcare。在AI等级会议和期刊发表论文20余篇。


贡畅,中国科学院计算技术研究所的在读博士生,本科毕业于同济大学。研究兴趣包括因果发现、时间序列分析和根因分析。


张楚哲,复旦大学数学科学学院本科生,中国科学院计算技术研究所科研助理。研究兴趣包括因果推断和时间序列分析。






主要涉及到的参考文献




[1] Gong, C., Yao, D., Zhang, C., Li, W., & Bi, J. (2023). Causal Discovery from Temporal Data: An Overview and New Perspectives. arXiv preprint arXiv:2303.10112

[2] Root Cause Analysis for Microservice Systems via Hierarchical Reinforcement Learning from Human Feedback





本次分享与读书会主题之间的关系




 • 与读书会之间的关系:从时间数据中学习因果关系,被认为是一项有趣而关键的因果发现任务,并引起了很多研究的关注。同时,本次分享的工业场景应用与时序因果发现密切相关,讲解如何利用人类反馈将动态变化的微服务系统因果图快速构建,从而帮助后续的故障诊断。

 • 与复杂系统之间的关系:代表复杂系统按时间顺序观察的时间数据一直以来都是一种典型的数据结构,在工业、医学和金融等多个领域广泛产生,分析这种类型的数据对各种应用都是非常有价值的。本次主题的应用场景是微服务系统,这是一种复杂系统,通常具有许多节点和调用关系,建立这些节点之间的因果关系是非常困难的。本文提出的框架为快速建立复杂系统的因果模型提供了新的思路。




直播信息



 
时间:
2023年4月8日(本周六)晚上19:00-22:00

参与方式:


扫码参与因果科学第四季读书会,加入群聊,获取系列读书会回看权限,成为因果科学社区的种子用户,与社区的一线科研工作者与企业实践者沟通交流,共同推动因果科学社区的发展。



因果科学读书会第四季启动


因果科学读书会第四季主要围绕因果表征学习引论、理论基础、技术框架,以及在机器学习领域和在工业界中的具体的应用进行深度探讨,系统梳理因果表征学习领域并促进相关的研究。自2022年12月31日开始,每周六晚上20:00-22:00举办,持续时间预计 10 周。欢迎对本话题感兴趣的朋友报名参加!(附第四季资源列表)



详情请见:
连接因果科学与深度学习的桥梁:因果表征学习读书会启动

什么是用于因果发现的时间数据?

记录复杂系统状态变化的时间数据被广泛收集于不同的应用领域,例如社交网络、生物信息学、神经科学和金融等。作为最受欢迎的数据结构之一,时间数据由按时间排序的属性序列组成。由于传感器和计算设备的迅速发展,最近几年涌现出了关于时间数据分析的研究工作。不同的方法已经被提出来用于不同的任务,例如分类,聚类,预测[5],因果发现等。在这些任务中,识别许多时间组成成分之间的因果关系已经成为时间数据分析中一个具有挑战性但又至关重要的任务。所学的因果结构对于解释数据生成过程和指导数据分析方法的设计具有益处。根据数据是否经过校准,用于因果发现的时间数据可以分为两组,即多元时间序列和事件序列。


多元时间序列

多元时间序列数据描述多个变量随时间变化的校准状态,是许多领域中的一般时间数据。为多元时间序列发现因果关系可以有益于数据分析模型的可解释性和鲁棒性。然而,因果关系的定义并不唯一,导致了不同的解决方案。

【基于约束的方法】

作为一系列因果发现算法,基于约束的方法依赖于条件独立性的统计检验,并且易于理解和广泛使用。我们首先介绍基于约束的方法的主要思想,包括一般步骤和因果假设。一般步骤是:基于条件独立性构建变量之间的骨架;根据规则中的方向准则将骨架定向。目标是构建代表真实因果图MEC的完成部分有向无环图(CPDAG)。这些方法推导MEC的核心是因果假设。这些方法通常在具有因果假设的情况下进行(因果马尔科夫性和可信假设),有些方法还假设因果充分性(无未观察到的混淆因素)。

【基于评分的方法】

基于得分函数的方法的动机是,编码错误(条件)独立性的图形结构也会导致模型适应性差。在基于得分函数的方法中,因果结构附加到处理时间数据的贝叶斯网络(BN)或动态贝叶斯网络(DBN)的概念上。因此,得分方法可以生成和概率评分多个模型,然后输出最有可能的一个。这与基于约束的方法形成对比,后者从中推导和输出单个模型,而不考虑其正确性的量化。而得分方法则通过应用适合度测量而不是条件独立性检验,来弱化信实性假设。因此,从观察中学习BN或DBN的问题可以被表述为:给定一组实例,找到最能匹配它们的网络,即优化目标函数。它由两个元素组成:模型评分和模型搜索。模型评分。常见的目标函数可以分为两类:关注模型适合性的贝叶斯分数和关注模型预测性能的分类准确率。

【基于功能因果模型(FCM)的方法】

因果发现方法可以大致分为两大类,即基于约束和基于分数的方法。然而,这两种方法都存在局限性,例如MEC的不可分离性或需要大样本来确认因果信仰性。因果发现也可以基于功能因果模型(FCM)进行,也称为2.1中的SCM,它通过一组方程描述了一个因果系统。近年来,FCM-based方法在时态和非时态数据中均有大量应用。在本小节中,我们首先介绍FCM-based方法的主要思想,包括功能因果模型和在定向因果关系中使用噪声的方法。然后将分别介绍使用独立分量分析和加性噪声模型的两种FCM-based方法。在FCM中,每个变量通过一个方程式来解释其直接原因和一些额外的噪声。例如,函数xj=fj(xi; uj)用额外的噪声uj解释了因果关系xi!xj。基于FCM的因果发现方法的一个基本思想是,统计噪声可以是有价值的信息源,这与最近的发现相符[90],挑战了噪声应该被视为干扰项的正统观点。具体而言,可以在噪声的帮助下识别和估计因果关系。

【Granger因果关系方法】

Granger因果关系是在许多实际应用中用于分析时间序列数据的一种流行工具。具体而言,Granger因果关系方法基于时间序列数据的自回归模型,即AR模型,用于描述时间序列数据的内在动态关系。基于AR模型,Granger因果关系方法计算出各个时间序列的预测误差,然后比较包含和不包含某个时间序列的预测误差,从而判断该时间序列是否对其他时间序列具有Granger因果影响。已经有很多因果发现方法基于Granger因果关系开发出来。由于在更一般的情况下,有模型方法具有更大的优越性,基于内核的方法和基于神经网络的方法中也有着最新进展。

【Takens因果关系】

Takens因果关系基于Takens定理,可以在多元时间序列中发现潜在的因果关系。Takens定理是一种用于分析动态系统的数学工具,它将动态系统的时间序列映射到相空间中的轨迹,并通过对相空间中的轨迹进行分析,提供关于系统演化行为的信息。多元时间序列Takens因果关系方法利用Takens定理将多元时间序列转换为相空间中的轨迹,并利用这些轨迹的几何特征推断潜在的因果关系。这种方法通常需要大量的数据和计算资源,但可以提供较为准确的因果推断结果,因此在某些领域如生物学和金融等领域得到了广泛的应用。

【微分方程】

多元时间序列微分方程是描述多个变量随时间变化的数学模型,其中每个变量的变化受到其他变量的影响。它通常包含一组关于各变量的一阶或高阶导数的方程。在实际应用中,这种微分方程通常用于描述物理、生物、经济等系统的动态行为,并通过对方程进行求解,可以预测系统在未来的状态。多元时间序列微分方程在探索因果关系、建立预测模型以及解释数据生成过程等方面具有重要应用价值。


事件序列数据

事件序列中的因果发现,它推断不规则和异步观测的时间序列中的因果关系。具体来说,它以一系列不同事件作为输入,并输出表示不同事件之间因果相互作用的因果图。这项任务非常重要,因为大多数真实世界事件不能在固定的时间间隔内出现。

【基于约束的因果关系】

基于约束的因果关系方法以条件独立性为基础,利用基于因果关系的约束条件来推断多元时间序列数据的因果结构。具体来说,该方法将多元时间序列看作是一个有向图,图中每个节点表示一个变量,每条有向边表示变量之间的因果关系。该方法首先根据条件独立性进行因果结构的初步推断,然后根据因果关系的约束条件对初步推断结果进行优化和修正,最终得到具有因果关系的多元时间序列因果结构。该方法的主要优点是具有较高的解释性和可靠性,但其对于数据量和条件独立性的要求较高,因此需要充分考虑数据的特点和限制。常用的基于约束的多元时间序列因果推断方法包括PC算法、GES算法等。

【基于评分的因果关系】

基于评分的因果关系方法是基于评分函数来度量事件序列中不同事件之间的因果关系强度,并选择最可能表示真实因果关系的模型。这种方法使用贝叶斯网络或动态贝叶斯网络表示因果模型,并使用评分函数来比较不同模型之间的质量。与基于约束的方法相比,基于评分的方法对数据中的因果信仰性做了更弱的假设,并使用评分函数代替条件独立性测试来度量因果关系。

【基于Granger的因果关系】

基于Granger的因果关系事件序列因果推断方法基于Granger因果性原理,通过分析时间序列数据中的时间延迟关系来推断事件序列之间的因果关系。该方法假设事件序列是具有因果关系的,即一个事件的发生可以导致另一个事件的发生,通过分析事件序列中的时间延迟关系,可以推断出不同事件之间的因果关系。该方法广泛应用于金融、社交网络、神经科学等领域的因果分析和预测中。该方法的优点是可以考虑多个事件之间的因果关系,并且不需要对事件之间的关系进行假设,因此可以更准确地描述事件序列的因果结构。



点击“阅读原文”,报名读书会