经济产出数据的缺乏阻碍了世界很多地区公共政策的制定和评估。近日,登上 Nature 封面文章的一项研究将卫星影像与机器学习相结合,以帮助填补这一数据缺口。该研究利用卫星影像和地区家庭财富调查数据,训练神经网络,实现对乌干达全国家庭经济产出的估计,并进一步结合基于机器学习的因果推断评估电力基础设施对地区生计的影响。研究结果证实了农村电网接入与家庭资产财富的正向因果关系。
预告:集智俱乐部组织的城市科学主题读书会正在筹备中,将从复杂系统视角研讨城市科学前沿文献,欢迎关注后续推文。
关键词:城市科学,电力网络,机器学习,因果推断,遥感影像数据
Using machine learning to assess the livelihood impact of electricity access
https://www.nature.com/articles/s41586-022-05322-8
准确的公共政策评估需要可靠的细粒度民生数据,用于评估生活水平的变化以及政策干预措施的影响。近年来非洲南部地区大力扩大电力供应,以改善公共设施功能、减少空气污染、提高家庭及社区的生产力,但电网扩张如何影响低收入地区经济产出的经验性证据仍然有限。
考虑到许多国家仅有时间不连续的、空间粒度较粗的普查数据,已有不少学者利用深度学习模型和丰富的遥感影像数据弥补贫困地区经济数据稀疏的问题,但很少进一步用于对公共政策或干预措施的评估。由此,本文提出了一种普适的方法,克服数据获取和因果推断的挑战,利用遥感和机器学习模型预测精细空间粒度下的乌干达资产财富指标,进一步评估电力设施接入对生活水平的影响。
1. 利用遥感与机器学习
度量电力对资产财富的影响
欲利用遥感影像估计地区多年社会经济指标,并结合电网布设变化评估电网接入对地区民生的影响,需克服以下四个主要挑战:
其一,生成大规模和精细分辨率的纵向数据是必需的,但具有挑战性。故本研究利用多光谱遥感数据为输入,基于撒哈拉以南非洲地区27000个村庄的统计调查数据中的多项相关指标,构造资产财富指数作为标签,使用ResNet-18深层网络模型,估计25个非洲国家2005-2018年的资产财富状况(图1c)。电网多年扩张的地理参考数据(图1b)能够与该估计结果相结合,辅助后续因果推断。
图1 (a) 无法获得电力供给的人数。乌干达(红色高亮)在2018年约有2400万人无法获得电力供给;(b) 乌干达不同年份建设的电网设施空间分布。黑点表示2016年普查数据所用的641个调查单元位置;(c) 25个国家的13年资产财富数据,用于预测模型的训练。
其二,用于财富估计的输入影像本身的视觉信息中可能包含了政策干预的线索,由此估计的财富指数与电网分布本身具有机理性联系,使得后续因果推断结果有偏。对此,在构造财富指数时,本研究排除了普查数据中的家庭电气化程度相关属性。同时,考虑到夜间灯光数据可以直接捕捉到电力基础设施的存在,因此仅使用30m日间遥感数据作为输入。
其三,对于连续的输出变量,回归预测值的方差通常低于观测值,经理论推导可知,预测值的低方差将使因果推断的估计值产生偏差。研究人员通过改造回归模型的损失函数,限制各分位区间内的预测误差,使预测值与真实值的方差水平相接近,有效降低了下游因果推断任务的估计偏差。
其四,用于因果推断的处理组与控制组在受到政策干预之前的发展趋势可能已存在差异。在不满足平行趋势假设的前提下,基本的因果推断方法如DiD难以准确估计政策影响。本研究采用基于机器学习的因果推断方法——矩阵填充(Matrix Completion, MC)和弹性网络合成控制法(Synthetic Controls with Elastic Net, SC-EN),推断处理组不受政策干预的反事实状态,由此得到对家庭资产财富受电力设施接入影响的无偏估计。
使用遥感影像与深层网络预测的资产财富指标与普查单元真实值的拟合度r2高于0.6,最高为0.68,说明所采用的预测模型能够解释约三分之二的资产财富变化。由乌干达全国2006-2016的财富指标分布来看(图2),北部和东部始终是最贫困区域,中部首都周边城郊地区财富大幅增长,北部受冲突影响地区增长相对缓慢。整体上,该模型预测结果显示的空间格局与现有相关调查研究结果一致。
图2 基于CNN预测模型的乌干达资产财富指标预测结果。(a,b) 2006年与2016年预测结果;(c) 6900个人口密集的村庄和社区的资产财富2006到2016年的变化,平均增长0.15倍标准差。
MC与SC-EN的估算结果在不同的预测模型训练策略下体现出了相似的并且统计上显著的电力设施接入的影响(图3),并且因果效应随时间的推移而增加。对道路建设和移动电话服务的分析排除了电力接入与其它类型基础设施投资的关联影响。就方法对比结果来看,基于机器学习的因果推断相较于DiD估算在本研究非平行趋势变化情形下具有优势,改进的损失函数纠正了传统的损失函数在因果推断中引入的偏差。针对具体的资产财富类别,房屋建设和家电相关变量是最受电力供应影响的财富指标。
图3 电力接入提高了家庭财富水平。(a) 实线表示未接入电网的控制组(灰色)和电网接入的处理组(红色)的平均资产财富水平。绿色和蓝色虚线分别表示用MC和SC-EN估计的处理组反事实结果;(b) 不同预测策略(训练集包含乌干达数据,训练集不包含乌干达数据,全国所有年份均使用预测数据)、推断方法(MC,SC-EN,DiD)、滞后年份(2013-2016年)的因果效应估计结果。误差线表示95%置信区间。
研究表明,电网接入使得农村地区的资产财富增加(获得电力地区的家庭财富增长为未获电力地区的两倍多),显著改善地区社会经济福祉,为贫困地区大规模基础设施建设的相关政策制定提供实证依据。
本研究基于社区水平的电力影响估计结果与现有的户级水平上的研究存在差异,一种可能的原因是电力接入的区域经济收益和正向的地区劳动力市场溢出效应体现在社区水平,无法在更小尺度的户级水平上体现;另一原因在于,本研究利用财富指标的多年估计值,能够得到相较于其他研究更长期的因果效应评估结果。这两点差异也体现了本研究方法的优势,即利用新兴的遥感影像和电网数据实现对连续多年的地区资产财富值的准确估计,并进一步定量评估电网接入对区域财富水平的长期影响。
本研究将机器学习应用于地区资产财富预测与因果推断两个步骤中,代表了一类可扩展、具有普适性、可复现、低成本的策略,克服数据稀疏、政策评估成本高或不可行的问题,可推广到基础设施布局、农业生产力改善、公共卫生干预、大范围环境变化等挑战性问题上。此外,对损失函数的改进及对应结果表明,传统的模型优化策略会加剧因果推断的偏差,在选择上游估计模型时应考虑下游因果推断任务的需求。
集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「我的集智」推送论文信息。扫描下方二维码即可一键订阅: