导语


如何预测复杂网络中的传播演进,大部分模型依赖简化的假设。近日,一篇发表于 Nature Communications 的论文“基于复杂网络中传染动态的深度学习模型”,基于时间序列,使用图神经网络,在去年新冠在西班牙的传播数据中证明了该方法的适用性。从而为复杂网络中传播现象的研究,指出了新的方向。


研究领域:深度学习模型,图神经网络,复杂系统建模

郭瑞东 | 作者

赵雨亭 | 审校

邓一雪 | 编辑



文题目:

Deep learning of contagion dynamics on complex networks

论文地址:

https://www.nature.com/articles/s41467-021-24732-2



新冠使得诸如SIR这样的传染病模型广为人知,这些模型对传播过程进行简化,之后通过实际数据拟合模型中的参数,再预测疾病未来的传播。但这样的模型,正在变得越来越复杂:研究人员需要考虑诸如保持社交距离、接种疫苗等政策的影响;还要考虑多种病毒变种间的相互作用;有的模型还考虑了谣言与恐惧对新冠传播过程的带来的加成。所有对这些超越两两直传的建模,其中越来越多的参数变得难以从有限的数据中获得。

由于图神经网络在链路预测及社群检测中的成功,研究者试图将其扩展到更多应用场景下。本研究提出了使用时间序列数据,训练图神经网络的流程。该流程可在未知的传播动态以及一组未知的网络结构中,针对复杂传播(即需要不仅一次接触才会感染)的传播动态进行预测。

该模型包含一个四元组,分别是网络中的节点和连边,以及其各自对应的和传播有关的特征,根据时间序列数据,逐步优化模型中的参数。

之后通过在多种类型和大小网络中的模拟数据的优异表现,论证了该方法的稳健性。
               

图1. 不同网络模型中。模拟数据下四种传播模式(简单、复杂、相关、大都市)中预测和实际传播过程的散点图。a-d,ER模型;e-h,BA模型;i-j,不同大小的网络中。


在传统模型中,节点的度数增加到一个阀值之后,病毒的传播会迅速增加,这种现象被称为相变或分岔(Bifurcation),是复杂系统的典型现象。GNN模型在相变前后的表现(预测的传播扩散比例)和真实情况相差不多,这进一步说明了该方法适用于多种网络结构。

图2. 简单和复杂传播模式下,相变前后不同平均度数的模拟网络中,真实和预测的最终感染率散点图


之后,研究人员还在与训练数据不同的网络结构中进行预测,从而论证该模型可以泛化已学到的传播动态特性。该模型使用了西班牙2020年1月到2020年12月间,52个区分别的日感染数(新冠)作为训练集,结合西班牙汽车、大巴、火车、飞机和轮渡的多重交通网,预测2021年1月到3月的感染情况。
               

图3. A:西班牙五种交通网络图, B:西班牙52个省每日感染数的热图,标记的前半部分为训练数据集


结果显示,在所有模型中,无论是对分省的病例数还是西班牙全国病例数进行预测,GNN都更为准确。

图4. 分省和全国的病例数折线图

总结来看,该文提出了一种数据驱动的方式,从一个未知的动力学过程中,利用时间序列来获得关于其性质的洞察。通过大规模的数据开源,该模型能够为我们应对疾病传播做好准备;甚至基于社交媒体中迷因传播的数据,可以研究信息传播中的未知结构和机制。目前虽集中在传染动力学上,但是它的潜在适用范围涉及到复杂系统建模的许多其他领域,研究人员期待它可以解释在这些领域中复杂的机制所起作用。


复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:



推荐阅读



点击“阅读原文”,追踪复杂科学顶刊论文