导语


理解因果关系是现代科学的前沿话题之一,并在技术领域有着广泛的应用在最近发表于 Physical Review Research 的一项基础研究中,清华大学与华为2012实验室中央研究院的联合研究团队提出了一种因果度量的新工具。对于任意系统,该方法能够定量分析不同系统分量间的时变因果关系,适用于广泛存在的高维和非平稳随机过程。


研究领域:因果分析,信息论,复杂系统

田洋 | 作者

梁金 | 审校

邓一雪 | 编辑



论文题目:

Fourier-domain transfer entropy spectrum

论文链接:https://journals.aps.org/prresearch/abstract/10.1103/PhysRevResearch.3.L042040




1. 因果分析:前沿与挑战




理解系统间的因果关系是物理学[1]和神经科学[2]等多个学科的共同挑战。度量因果关系的挑战往往在于系统的观测值(例如时间序列)十分稀缺,且研究者缺乏对于系统间的耦合关系的先验知识。在过去几十年,基于不充足的信息和数据进行因果关系分析成为了物理学、数学和统计学最重要的问题之一[3]。在统计理论角度(例如Granger因果[4]及其推广[5–10])信息论角度(例如转移熵[11]及其推广[12–20]),研究者已经取得了丰富的进展。尽管因果的本质依然存在争论[21],上述两个角度已被证实具有深刻的数学联系[22,23]。

如果我们用表示X的历史信息,则“系统X是系统Y的原因“可以被理解为——在时刻t,如果“基于系统Y的历史信息预测系统Y当前状态的不确定性”不等于“基于系统Y”的历史信息和系统X的历史信息一同预测系统Y当前状态的不确定性“,则系统X的历史信息对系统Y当前状态有因果性的影响。一言蔽之,因果效应在于历史信息对当前(或未来)状态的不确定性的控制。集智俱乐部的往期文章《作为因果科学家的神经系统:因果编码》中曾介绍了大脑能基于神经动力学对于因果关系进行类似的表征[65]。

基于上述思想衍生出的所有因果度量工具中,转移熵(Transfer entropy)[11]在神经科学[24–28]和经济学[29–33]中有广泛的应用。转移熵对非线性因果关系具有鲁棒的发现能力,并且和动力系统理论和信息论有着本质的联系[3,11]。例如,转移熵等价于条件互信息 [3,34]。在转移熵的最初定义中,系统X的历史信息对于系统Y当前状态的不确定性的控制效应等价于给定后,和Y(t)间互信息的期望值。虽然转移熵具有不依赖先验模型的特点,但其在真实场景下的使用依然会受到许多限制。例如,转移熵的度量存在维数灾难[15]和噪声敏感性[35]。虽然大量的研究已经探索了转移熵的最优估计方案(例如,符号化[12]、相时间序列[13]、集成估计[16]、Lempel-Ziv复杂度[18]、人工神经网络[19]和k近邻[36]),仍然有许多困难未被克服:

1. 已有研究将系统视为一个整体,然而,更普遍的情况是因果关系只存在于特定的子系统间(例如,只存在于XY的高频分量间)。不区分系统组件则会掩盖这些因果关系。
2. 因果关系是随时间变化的。虽然转移熵的初始版本能够被累积地计算或结合滑动时间窗进行动态计算,一个更精确且更自然的时变因果关系度量工具依然缺失。

3. 概率密度估计——一个计算转移熵的先决条件——在现实场景中往往是成本高昂的(需求大样本量)或不准确的(非平稳过程和高维空间)。一个适用于非平稳(nonstationary)和高维(high-dimensional)过程的高效转移熵估计方案依然缺失。

       




2. 因果度量新工具:傅里叶域转移熵增




为了克服上述困难,清华大学心理学系&脑与智能实验室与华为2012实验室中央研究院的联合研究团队开展了理论研究,提出了适用于非平稳、高维随机过程的转移熵估计理论。该研究论文于12月15日以 Letter 形式发表于物理期刊 Physical Review Research

 

在该研究论文中,作者提出了傅里叶域转移熵谱(Fourier-domain transfer entropy spectrum)作为转移熵的推广。理解傅里叶域转移熵谱,只需要抓住以下三个方面:

1. 傅里叶域(Fourier-domain),即使用类似傅里叶变换的方法将原始系统进行再表征后得到的空间。通过再表征,作者探索了如何为识别时变的因果关系创造基础。
2. 转移熵(Transfer entropy)度量,即基于再表征后的系统进行因果度量。在度量过程中,作者探索了如何降低概率密度估计的代价,并提升对非平稳、高维随机过程采样的精度。

3. (Spectrum)。作者探索了如何将任意时刻的因果关系进行展开,从而能分析不同系统分量间的因果关系,并沿着时间和系统分量两个维度展开形成因果谱。

     
从上述思路出发,作者对于每个方面进行了系统的探索。

首先,作者分析了如何基于傅里叶域对系统进行表征。一个合理的表征应该自然地将系统区分为多个系统分量,并且能反映系统可能存在的非平稳特性。为了获取一个不依赖先验模型的系统划分,作者考虑了将系统划分为不同频率分量,这一思路在物理[38]、数学[39]、神经科学[40]和工程[41]领域都有广泛的应用,保证了理论的易用性。为了避免对系统平稳性的假设,通常可以采用小波变换[42]或希尔伯特-黄变换[43]而非傅里叶变换(傅里叶变换带有平稳性假设[44])。小波变换和希尔伯特-黄变换都能进行时频表征,即得到一个时变的频率谱。两类方法各有优缺点,需要基于现实场景进行选择[43,45]。作者选择了有完备理论基础的小波变换进行理论推导。对于系统X,作者使用小波变换后的时变功率谱作为其傅里叶域表征F(X, t, ω),其中t表示时间轴而ω表示频率轴 [图1(a)]。为了保证研究的易重复性,作者使用了一个开源的神经信号数据集。该数据集包含了使用近红外光谱学(NIRS)记录的额上回(superior frontal cortex)的神经活动[50,51],可作为X和Y的观测值。

在得到了F(X, t, ω)和F(Y, t, ω)后,作者需要探索如何度量两者间的转移熵。首要的挑战在于F(X, t, ω)和F(Y, t, ω)都是实值的谱,随着系统的观测时间t增长或考虑的频率ω的粒度变细,F(X, t, ω)和F(Y, t, ω)的概率密度分布将不可避免地处于高维空间中。若XY对应非平稳随机过程,则情况会更加严峻,因为F(X, t, ω)和F(Y, t, ω)的高维概率密度分布不能在有限的观测样本集中进行足够的采样。在此基础上,任何对F(X, t, ω)和F(Y, t, ω)的概率密度分布的直接估计方案都不可避免地陷入高维空间和非平稳过程的双重困境中,几乎不可能得到准确的答案。为了克服这一困难,作者推广了经典的符号化方法[52],提出了二维符号化(two-dimensional symbolization)编码。该编码是一种粗粒化方案,在选择F(X, t, ω)上任意一个点后,该编码能够沿着时间轴和频率轴获取该点与相邻点的数值大小关系并进行排序,基于排序结果对原始数值起伏规律进行保序表征的同时,又略去了具体的数值大小从而对背景噪音形成抵抗。通过将沿着时间轴和频率轴的排序结果转换为特定p进制空间中的元素 [图1(b)],再统一映射到10进制空间中以替换F(X, t, ω)中的原始值得到,从而将F(X, t, ω)的概率密度空间从高维实数空间嵌入到一个1维的整数空间,且该整数空间只包含少数元素(具体数量由粗粒化粒度控制)。在嵌入后的1维整数空间中,XY系统的背景噪音已被过滤,且其概率密度分布能在极小的观测数据集中进行充分采样。

图1. 傅里叶转移熵谱分析。(a)基于NIRS数据的傅里叶域表征F(X, t, ω)和F(, t, ω)Y。(b)对F(X, t, ω)和F(Y, t, ω)的粗粒度粗粒化结果(上排)和细粒度粗粒化结果(下排)。(c)傅里叶转移熵谱T(X, Y, t, ω)及其与小波协同(wavelet coherence)的对比分析。(d)时变和频变的因果关系分析表明存在X→Y的因果关系。

 
在得到后,度量转移熵的先决条件已得到了较好的保证。作者直接基于原始的转移熵给出了度量,得到了傅里叶域转移熵谱T(X, Y, t, ω)[见图1(c)]。在T(X, Y, t, ω)中,给定一个时刻t和频率ω,就能得到系统X和Y的ω频率分量在时刻t的转移熵,从而反映因果关系。在T(X, Y, t, ω)中,因果关系不仅是时变的(沿着t轴变化),还是频变的(沿着ω轴变化)。自然,将T(X, Y, t, ω)沿着t轴相加可得到频变的因果关系T(X, Y, ω),将T(X, Y, t, ω)沿着ω轴相加可得到频变的因果关系T(X, Y, t),将T(X, Y, t, ω)的所有数值进行加和可得到经典的转移熵T(X, Y)[图1(d)]。由此,该方法能够提供T(X, Y)展开后的结果,从而能提供更丰富的因果关系的信息。同时,通过对T(X, Y, t, ω)中的数值进行加权,使用者可对因果关系进行筛选,从而适用于各类科学和工程场景中的降噪。
 

图2. 傅里叶转移熵谱的信效度分析。(a)T(X, Y, t, ω)对粗粒化参数的依赖性分析。(b)基于timeshifting surrogates 和置换检验,证明T(X, Y, t, ω)具有统计显著性p<10-3和高统计效力ξ。(c)通过改变扩散耦合logistic振子X和Y的耦合关系,能够敏感地调节T(X, Y, t, ω)的数值。(d)通过改变扩散耦合logistic振子X和Y的耦合关系,能够敏感地调节T(X, Y, t, ω)的统计显著性。 


作者对T(X, Y, t, ω)的信效度进行了系统的检验。一方面,作者分析了T(X, Y, t, ω)对粗粒化尺度的依赖性,证明了基于T(X, Y, t, ω)的因果分析对参数并不依赖 [图2(a)]。另一方面,作者结合 timeshifting surrogates [56–58] 和置换检验 [59,60]提出了针对T(X, Y, t, ω)的统计检验,以检验信息度量在有限数据集下常出现的偏差[55],证明了T(X, Y, t, ω)的高统计效力 [图2(b)]。此外,作者使用了分叉指数为4的扩散耦合 logistic 振子(diffusively coupled logistic oscillators)[62,63]检验了T(X, Y, t, ω)是否能随着真实因果关系的强弱起伏而敏感地变化,证明了T(X, Y, t, ω)在因果发现方面的敏感性 [图2(c-d)]




3. 总结




在该理论研究中,研究者奠定了傅里叶域转移熵谱的理论基础,开发了相应的统计检验和计算技术。傅里叶域转移熵谱是一个不依赖先验模型的因果关系度量工具,能够在傅里叶域中分析任意多个系统的不同系统分量间的时变因果关系,适用于各类非平稳和高维随机过程,并具有良好的统计显著性和效力。作者在[64]中讨论了傅里叶域转移熵谱基础版本的更多问题以供研究者使用。



参考文献


[1]  A. Pikovsky, J. Kurths, M. Rosenblum, and J. Kurths, Synchronization: A Universal Concept in Nonlinear Sciences, Cambridge Nonlinear Science Series No. 12 (Cambridge University Press, Cambridge, U.K., 2003)
[2] E. Pereda, R. Q. Quiroga, and J. Bhattacharya, Nonlinear multivariate analysis of neurophysiological signals, Prog. Neurobiol. 77, 1 (2005).
[3] K. Hlavácková-Schindler, M. Paluš, M. Vejmelka, and J. ˇ Bhattacharya, Causality detection based on informationtheoretic approaches in time series analysis, Phys. Rep. 441, 1 (2007). 
[4] C. W. Granger, Investigating causal relations by econometric models and cross-spectral methods, Econometrica: J. Eco. Soc. 37, 424 (1969). 
[5] D. Marinazzo, M. Pellicoro, and S. Stramaglia, Kernel Method for Nonlinear Granger Causality, Phys. Rev. Lett. 100, 144103 (2008). 
[6] N. Ancona, D. Marinazzo, and S. Stramaglia, Radial basis function approach to nonlinear Granger causality of time series, Phys. Rev. E 70, 056221 (2004). 
[7] M.-C. Ho, Y.-C. Hung, and I.-M. Jiang, Phase synchronization in inhomogeneous globally coupled map lattices, Phys. Lett. A 324, 450 (2004). 
[8] A. Arnold, Y. Liu, and N. Abe, Temporal causal modeling with graphical Granger methods, in Proceedings of the 13th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining (ACM, New York, 2007), pp. 66–75. 
[9] H. Liu, J. Lafferty, and L. Wasserman, The nonparanormal: Semiparametric estimation of high dimensional undirected graphs, J. Mach. Learn. Res. 10, 2295 (2009). 
[10] M. Dhamala, G. Rangarajan, and M. Ding, Estimating Granger Causality from Fourier and Wavelet Transforms of Time Series Data, Phys. Rev. Lett. 100, 018701 (2008). 
[11] T. Schreiber, Measuring Information Transfer, Phys. Rev. Lett. 85, 461 (2000). 
[12] M. Staniek and K. Lehnertz, Symbolic Transfer Entropy, Phys. Rev. Lett. 100, 158101 (2008). 
[13] M. Lobier, F. Siebenhühner, S. Palva, and J. M. Palva, Phase transfer entropy: A novel phase-based measure for directed connectivity in networks coupled by oscillatory interactions, Neuroimage 85, 853 (2014). 
[14] M. Lungarella, A. Pitti, and Y. Kuniyoshi, Information transfer at multiple scales, Phys. Rev. E 76, 056117 (2007). 
[15] J. Runge, J. Heitzig, V. Petoukhov, and J. Kurths, Escaping the Curse of Dimensionality in Estimating Multivariate Transfer Entropy, Phys. Rev. Lett. 108, 258701 (2012).
[16] P. Wollstadt, M. Martínez-Zarzuela, R. Vicente, F. J. DíazPernas, and M. Wibral, Efficient transfer entropy analysis of non-stationary neural time series, PLoS One 9, e102833 (2014). 
[17] M. Porfiri and M. Ruiz Marín, Transfer entropy on symbolic recurrences, Chaos 29, 063123 (2019). 
[18] J. F. Restrepo, D. M. Mateos, and G. Schlotthauer, Transfer entropy rate through Lempel-Ziv complexity, Phys. Rev. E 101, 052117 (2020). 
[19] J. Zhang, O. Simeone, Z. Cvetkovic, E. Abela, and M. Richardson, ITENE: Intrinsic transfer entropy neural estimator, arXiv:1912.07277. 
[20] R. Silini and C. Masoller, Fast and effective pseudo transfer entropy for bivariate data-driven causal inference, Sci. Rep. 11, 8423 (2021). 
[21] J. Pearl, Causality: Models, Reasoning and Inference, (Cambridge University Press, Cambridge, U.K., 2000). 
[22] C. Diks and V. Panchenko, A note on the Hiemstra-Jones test for Granger non-causality, Stud. Nonlinear Dyn. Econom. 9(2) (2005). 
[23] C. Diks and J. DeGoede, A general nonparametric bootstrap test for Granger causality, in Global Analysis of Dynamical Systems, edited by H. W. Broer, B. Krauskopf, and G. Vegter (Institute of Physics Publishing (IOP), London, 2001), pp. 393–405. 
[24] R. Vicente, M. Wibral, M. Lindner, and G. Pipa, Transfer entropy—A model-free measure of effective connectivity for the neurosciences, J. Comput. Neurosci. 30, 45 (2011). 
[25] J. D. Victor, Binless strategies for estimation of information from neural data, Phys. Rev. E 66, 051903 (2002). 
[26] V. A. Vakorin, N. Kovacevic, and A. R. McIntosh, Exploring transient transfer entropy based on a group-wise ICA decomposition of EEG data, Neuroimage 49, 1593 (2010). 
[27] R. E. Spinney, M. Prokopenko, and J. T. Lizier, Transfer entropy in continuous time, with applications to jump and neural spiking processes, Phys. Rev. E 95, 032319 (2017). 
[28] M. Ursino, G. Ricci, and E. Magosso, Transfer entropy as a measure of brain connectivity: A critical analysis with the help of neural mass models, Front. Comput. Neurosci. 14, 45 (2020). 
[29] T. Dimpfl and F. J. Peter, Using transfer entropy to measure information flows between financial markets, Stud. Nonlinear Dyn. Econom. 17, 85 (2013). 
[30] A. Papana, C. Kyrtsou, D. Kugiumtzis, and C. Diks, Detecting causality in non-stationary time series using partial symbolic transfer entropy: Evidence in financial data, Comput. Econ. 47, 341 (2016). 
[31] F. Toriumi and K. Komura, Investment index construction from information propagation based on transfer entropy, Comput. Econ. 51, 159 (2018). 
[32] M. Camacho, A. Romeu, and M. Ruiz-Marin, Symbolic transfer entropy test for causality in longitudinal data, Econ. Model. 94, 649 (2021). 
[33] Q. Ji, H. Marfatia, and R. Gupta, Information spillover across international real estate investment trusts: Evidence from an entropy-based network analysis, North Am. J. Econ. Finance 46, 103 (2018). 
[34] T. M. Cover, Elements of Information Theory (Wiley, Hoboken, NJ, 1999). 
[35] D. A. Smirnov, Spurious causalities with transfer entropy, Phys. Rev. E 87, 042917 (2013).
[36] A. Kraskov, H. Stögbauer, and P. Grassberger, Estimating mutual information, Phys. Rev. E 69, 066138 (2004). 
[37] W. A. Gardner, A. Napolitano, and L. Paura, Cyclostationarity: Half a century of research, Signal Process. 86, 639 (2006). 
[38] R. J. Marks II, Handbook of Fourier Analysis & its Applications (Oxford University Press, Oxford, U.K., 2009). [39] P. Brémaud, Mathematical Principles of Signal Processing: Fourier and Wavelet Analysis (Springer, Berlin, 2013). 
[40] A. Bruns, Fourier-, Hilbert-and wavelet-based signal analysis: Are they really different approaches? J. Neurosci. Methods 137, 321 (2004). 
[41] L. R. Rabiner and B. Gold, Theory and Application of Digital Signal Processing (Prentice-Hall, Englewood Cliffs, NJ, 1975). 
[42] O. Rioul and M. Vetterli, Wavelets and signal processing, IEEE Signal Process. Mag. 8, 14 (1991). 
[43] N. E. Huang, Hilbert-Huang Transform and its Applications, Vol. 16 (World Scientific, Singapore, 2014). 
[44] G. Kaiser and L. H. Hudgins, A Friendly Guide to Wavelets, Vol. 300 (Springer, Berlin, 1994). 
[45] G. B. Folland and A. Sitaram, The uncertainty principle: A mathematical survey, J. Fourier Anal. Appl. 3, 207 (1997). 
[46] Z. Peng, W. T. Peter, and F. Chu, An improved Hilbert–Huang transform and its application in vibration signal analysis, J. Sound Vib. 286, 187 (2005). 
[47] R. T. Ogden, Essential Wavelets for Statistical Applications and Data Analysis (Springer, Berlin, 1997). 
[48] C.-L. Liu, A Tutorial of the Wavelet Transform (NTUEE, Taiwan, 2010). 
[49] R. R. Coifman, Y. Meyer, and V. Wickerhauser, Wavelet analysis and signal processing, in Wavelets and their Applications (Jones and Barlett, Boston, 1992). 
[50] X. Cui, D. M. Bryant, and A. L. Reiss, NIRS-based hyperscanning reveals increased interpersonal coherence in superior frontal cortex during cooperation, Neuroimage 59, 2430 (2012). 
[51] X. Cui, D. M. Bryant, and A. L. Reiss, The NIRS data in a built-in directory of Matlab (2012), https://ww2.mathworks.cn/ help/wavelet/ug/wavelet-coherence-of-brain-dynamics.html. 
[52] C. Bandt and B. Pompe, Permutation Entropy: A Natural Complexity Measure for Time Series, Phys. Rev. Lett. 88, 174102 (2002). 
[53] J. Xie, J. Gao, Z. Gao, X. Lv, and R. Wang, Adaptive symbolic transfer entropy and its applications in modeling for complex industrial systems, Chaos 29, 093114 (2019). 
[54] C. Torrence and G. P. Compo, A practical guide to wavelet analysis, Bull. Am. Meteorol. Soc. 79, 61 (1998). 
[55] S. Panzeri, R. Senatore, M. A. Montemurro, and R. S. Petersen, Correcting for the sampling bias problem in spike train information measures, J. Neurophysiol. 98, 1064 (2007). 
[56] R. Andrzejak, A. Ledberg, and G. Deco, Detecting event-related time-dependent directional couplings, New J. Phys. 8, 6 (2006). 
[57] T. Wagner, J. Fell, and K. Lehnertz, The detection of transient directional couplings based on phase synchronization, New J. Phys. 12, 053031 (2010). 
[58] M. Martini, T. A. Kranz, T. Wagner, and K. Lehnertz, Inferring directional interactions from transient signals with symbolic transfer entropy, Phys. Rev. E 83, 011919 (2011). 
[59] B. Phipson and G. K. Smyth, Permutation p-values should never be zero: Calculating exact p-values when permutations are randomly drawn, Stat. Appl. Genet. Mol. Biol. 9(1) (2010).
[60] E. Maris and R. Oostenveld, Nonparametric statistical testing of EEG- and MEG-data, J. Neurosci. Methods 164, 177 (2007). 
[61] M. Lindner, R. Vicente, V. Priesemann, and M. Wibral, TRENTOOL: A Matlab open source toolbox to analyse information flow in time series data with transfer entropy, BMC Neurosci. 12, 119 (2011). 
[62] A. L. Lloyd, The coupled logistic map: A simple model for the effects of spatial heterogeneity on population dynamics, J. Theor. Biol. 173, 217 (1995). 
[63] A. Valencio and M. d. S. Baptista, Coupled logistic maps: Functions for generating the time-series from networks of coupled logistic systems (2018), open source codes for MATLAB. available at https://github.com/artvalencio/coupled-logisticmaps. 
[64] Y. Tian, Y. Wang, Z. Zhang, and P. Sun, Transfer entropy spectrum in the Fourier domain (2021), open source codes available at https://github.com/doloMing/Transfer-entropy-spectrum-inthe-Fourier-domain.
[65] https://mp.weixin.qq.com/s/gH4chxE4OyvsR1Pyd2XaDQ



(参考文献可上下滑动查看)



因果涌现读书会招募中


跨尺度、跨层次的涌现是复杂系统研究的关键问题,生命起源和意识起源这两座仰之弥高的大山是其代表。而因果涌现理论、机器学习重整化技术、自指动力学等近年来新兴的理论与工具,有望破解复杂系统的涌现规律。由北京师范大学教授、集智俱乐部创始人张江等发起「因果涌现」系列读书会组织对本话题感兴趣的朋友,深入研读相关文献,激发科研灵感。读书会社群持续开放招募。



本季读书会详情与报名方式请参考:
因果涌现读书会启动:连接因果、涌现与自指——跨尺度动力学与因果规律的探索



推荐阅读



点击“阅读原文”,即可报名读书会