尽管学术界几十年来一直在使用不同空间和时间尺度的定量和定性方法研究气候变化与武装冲突之间的关系,但我们对于全球尺度的气候变化与武装冲突的因果关系仍然知之甚少。最新发表于 Nature Communications 的一篇文章,基于机器学习的建模框架,从高频时间序列数据中推断潜在的因果关系,并模拟了 2000-2015 年全球武装冲突的风险。研究结果表明,武装冲突的风险主要受具有复杂模式的稳定背景环境的影响,正的温度偏差或极端降水与全球武装冲突风险增加有关。
集智俱乐部组织的「计算社会科学读书会」第二季已经启动报名,将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会6月18日开始,持续10-12周,详情见文末。
研究领域:计算社会科学,机器学习,武装冲突,气候变化,因果推断
论文题目:
Modelling armed conflict risk under climate change with machine learning and time-series data
https://www.nature.com/articles/s41467-022-30356-x#code-availability
根据乌普萨拉冲突数据计划(Uppsala Conflict Data Program,UCDP)的地理事件数据集,2000年至2015年期间,全球发生了91,000多起武装冲突事件,直接造成约654,000人死亡,其中包括近144,000名平民。虽然从十年的角度来看,全球武装冲突事件的数量和强度都有所下降,高强度的冲突下降幅度更大,但几个地区的武装冲突事件频率呈上升趋势,特别是在气候变化的大背景下,武装冲突越来越集中在非洲、中东和南亚地区。
越来越多的跨学科研究者关注武装冲突风险,因为它对人类安全和保障具有重大意义。研究人员和政策制定者最近都在激烈讨论气候变化是否会影响冲突风险。例如,自2018年以来,联合国安理会每年都就气候变化和安全问题进行讨论。
图1. 2020年中东地区暴力事件 | 来源:The Uppsala Conflict Data Program (UCDP)
气候变化有可能增加国家之间对共享资源的争夺,在种族隔离、人类发展水平低和人口众多的情况下,与气候相关的灾害增加了武装冲突的可能性。然而,关于气候变化和武装冲突关系的研究涵盖了广泛的气候现象和冲突层面,这使得不同研究的不同结果难以比较。并且,与气候变化相关的自变量多种多样,这种高维自变量使得武装冲突的预测极具挑战性。同时,目前的相关研究主要探讨了气候变化与国家级尺度的冲突之间的关系,这忽略了国家内部冲突风险的空间差异。因此,在全球范围内探索气候与冲突的因果联系仍然是一项具有挑战性的任务。
更精细地模拟和预测冲突风险对于促进社会稳定与和平至关重要。近年来,模拟和数据驱动的方法(机器学习)已被证明有潜力解决许多基于大数据的复杂问题,包括气候变化与武装冲突的联系。因此,发表于 Nature Communications 的这篇文章提出了一个潜在的棘手问题,即机器学习方法是否可用于发现冲突风险和高维协变量之间的模式。
在这项研究中,研究者将机器学习方法与高频时间序列数据相结合,以模拟气候变化下的武装冲突风险。作者提出了一个假设,即在存在这种模式的情况下,从一年的数据集拟合的机器学习模型,可以用捕捉到的模式预测其他年份的武装冲突风险。
在武装冲突的各种概念中,最突出的是乌普萨拉冲突数据计划,它将武装冲突事件定义为“一个有组织的行为者对另一个有组织的行为者或平民使用武力,在特定地点和特定日期造成至少1人直接死亡的事件”。
在这篇文章中,作者使用该数据集,通过发生率(特定年份的武装冲突事件)和发动率(前一年没有武装冲突事件的发生率)两个二元因变量衡量了武装冲突事件的频率。
图2. 两个衡量武装冲突频率的二元因变量计算公式。
作者采用的候选自变量分为两类:气候偏差相关因素和稳定的背景环境两大类。与气候偏差相关的因素包括:标准化温度指数(一年或两年)和标准化降水指数(一年或两年)。稳定的背景因素包括:平均温度、平均降水量、高程、自然灾害热点、民族多样性、城市可达性、夜间灯光以及归一化的植被差异指数。
作者提出了一种时间序列交叉验证方法,在一年的样本上训练的梯度提升回归树(BRT)模型在其他年份的样本上的表现。图3显示了 BRT 模型在不同策略 a 和 a+(加入不同的自变量)下在时间尺度上的表现。与策略 a 相比,策略 a+ 考虑了 24 个月(两年)的气候偏差值,并得到了更高的 ROC-AUC(0.939) 值。时间交叉验证结果证明了冲突风险与高维自变量之间存在联系的假设。
图3. 提升回归树模型在时间尺度上的验证性能。(a,b)在策略 a(图3a)和 a+(图3b)下对一年的冲突发生率样本进行了提升回归树(BRT)模型的训练。(c)策略a(稳定背景环境与一年气候偏差相关协变量的配对)和a+(与a相同,但用了两年气候偏差)之间的比较。
3. 武装冲突风险与气候异常有关,
但受政治、社会经济和地理环境影响更大
通过计算自变量对于预测武装冲突的相对共献,作者发现,平均温度、自然灾害、平均降水量以及社会经济相关的自变量是主要的预测因子。因此,武装冲突的风险主要受具有复杂模式的稳定背景的影响,其次是才是与气候偏差相关的协变量(标准化温度指数和标准化降水指数)。
总的来说,冲突风险与气候异常有关,但受政治、社会经济和地理环境的影响更大。例如,稳定背景类型的自变量极大地促进了武装冲突事件的时空分布,平均相对贡献率超过96.0%。与稳定的背景自变量相比,标准化温度指数或标准化降水指数对模拟结果的影响相对较小,占模拟结果的2.5%以上。
最后,作者还使用训练的模型预测了2000年、2005年、2010年和2015年武装冲突发生率的模拟概率。图3描述了全球模拟武装冲突发生风险的空间分布,武装冲突高风险地区集中在墨西哥和中美洲、南美洲西北部、非洲和亚洲几个部分,并且风险有向非洲东部、中东和南亚地区集中的趋势。
图4. 2000年、2005年、2010年和2015年全球模拟武装冲突发生风险图。
这项研究结果表明,将机器学习与高频时间序列数据相结合,在预测全球范围内武装冲突爆发的风险方面具有巨大潜力。总的来说,从大量数据中发现的模式是复杂的。这是因为不同的气象、地理、政治和社会经济背景可能使人类以不同的方式适应环境变化的压力,从而导致对气候变化的不同社会稳定性反应。例如,冲突风险水平和种族多样性之间的正相关关系表明,政治相关种族的多样性越大,冲突风险就越高。同时,冲突风险水平和城市可达性之间存在正相关,表明交通枢纽很容易成为冲突的爆发点,因为它们在控制领土和冲突物流方面发挥着关键作用。
不过,由于技术适应性的提高和社会结构复杂性的增加,现代人类对气候变化的适应能力远远高于历史研究中记录的水平。然而,气候变化仍有可能超出特定区域(例如,当它们地处偏远且依赖农业时)或群体(例如,当它们贫穷且被政治排斥时)的适应能力。
但是,这项研究通过机器学习方法得出的结论是相关关系还是因果关系呢?总体来看,作者使用的提升回归树方法可以在全球规模的精细分析帮助模型捕捉更可靠的关系。但本质上发现的仅是数据之间的内在联系(相关关系),也即仍停留在在观察阶段,而无法真正回答是否是气候变化的冲击下加剧了这种冲突风险的提高(因果关系)。
作者也提到,由于 UCDP 数据集的来源主要依靠媒体报道,无法将所有武装冲突事件纳入其中,以及众所周知的媒体偏见也可能会在某种程度上增加他们结果上的不确定性。其次,由于缺乏文化和历史因素的精确数据集(如地缘政治有关的变量,比如俄乌冲突),作者对机器学习模型的训练仅限于量化这些变量关系的作用。虽然没有通用的理论来解释全球范围内气候与冲突联系的因果机制,但他们的建模框架可能有助于冲突风险的早期预警。
近年来,基于融合机器学习和因果推断方法的因果学习已逐渐成为研究领域和业界应用的一个热点区域。并且随着因果机器学习(Causal AI)的发展,机器学习的稳健性、泛化能力、可解释性等方面都将得到有效提升。我们可以展望,结合了因果推断的机器学习方法不仅能在人工智能领域得到运用,也能将计算社会科学的方法论提升到更高的水平。
计算社会科学作为一个新兴交叉领域,越来越多地在应对新冠疫情、舆论传播、社会治理、城市发展、组织管理等社会问题和社科议题中发挥作用,大大丰富了我们对社会经济复杂系统的理解。相比于传统社会科学研究,计算社会科学广泛采用了计算范式和复杂系统视角,因而与计算机仿真、大数据、人工智能、统计物理等领域的前沿方法密切结合。为了进一步梳理计算社会科学中的各类模型方法,推动研究创新,集智俱乐部发起了计算社会科学系列读书会。
新一季【计算社会科学读书会】由清华大学罗家德教授领衔,卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起,自2022年6月18日开始,持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合,并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末,欢迎从事相关研究或对计算社会科学感兴趣的朋友参与。
详情请见:
数据与计算前沿方法整合:计算社会科学读书会第二季启动