PNAS特刊：让疫情追踪预测更有效的综合模型、数据流与资源库

导语

美国卡内基·梅隆大学的德尔菲研究组织（Carnegie Mellon Delphi Group）致力于流行病跟踪和预测的理论和实践研究。近日，PNAS“超越病例和死亡：辅助数据流在跟踪新冠疫情中的优势”专题刊登了该组织两位主要发起人Roni Rosenfelda和Ryan J. Tibshirani撰写的文章。

文中对美国过去十年流行病追踪和预测的发展进行回顾，并从不同角度介绍了四项重要的、具有代表性的研究。作者总结了过去在疫情监测和检测方面的经验教训，对未来实现更有效、更实时的预测模型提出了部分建议和解决方法。

研究领域：计算流行病学，网络传播模型，新冠病毒资源库

Roni Rosenfeld、Ryan J. Tibshirani | 作者

胡一冰 | 译者

邓一雪 | 编辑

论文标题：

Epidemic tracking and forecasting: Lessons learned from a tumultuous year

论文地址：

https://www.pnas.org/content/118/51/e2111456118

目录：

一、美国流行病追踪与预测发展状况

二、四项代表性研究简介

三、关于疫情追踪和预测的经验总结

四、关于疫情预测的未来展望

一、美国流行病追踪与预测发展状况

在过去十年中，流行病预测在美国受到了越来越高的重视。这类研究主要由联邦政府内组织带头，如疾病控制和预防中心、科学技术政策办公室、国防高级研究计划局等其他机构。2017年，在相关学术团体进行了多年的流感预测实验之后，疾病预防控制中心决定将流感预测纳入其正常运作。为了提供更可靠的基础设施和支持其预测需求，2019年疾病预防控制中心指定了两个国家流感预测卓越中心，分别在马萨诸塞大学阿默斯特分校和卡内基梅隆大学。

在这十年中 “数字监测”在公共卫生中的重要性大幅提高，这些数据主要应用于改进流行病跟踪和预测模型。来自搜索引擎和社交媒体上的数据趋势构成了“数字流”的主要部分，来自传统公共卫生报告之外的辅助数据，如在线调查、医疗设备或电子病历，也受到了不小的关注。

自2012年以来，该篇文章两位作者Roni Rosenfelda和Ryan J. Tibshirani共同领导的卡内基梅隆大学德尔菲研究组织（Carnegie Mellon Delphi Group）一直致力于“流行病预测”和“构建相关辅助信号”工作，以建立此类流行病预测模型。2020年新冠疫情爆发后，该组织也一样努力寻找办法为美国应对疫情做出贡献。该组织最终将重点几乎完全放在数据方面，寻求多个方向以便建立和向公众提供各种各种反映美国疫情实时动态的新指标。这篇特刊中作者通过三篇文中、三种不同角度介绍了这些工作。此外，还有一篇介绍了该组织的部分国际工作，这些工作与在美国的在线调查工作相似。

德尔菲研究组织官网页面。德尔菲研究组织是卡内基·梅隆大学的一个研究小组，致力于流行病跟踪和预测的理论和实践研究，长期愿景是使这些技术能像当下的天气预报一样有用且被普遍接受。组织官网：https://delphi.cmu.edu/

二、四项代表性研究简介

第一篇：如何了解疫情实时动态？

实时 COVID-19 指标开放资源库

论文题目：

An open repository of real-time COVID-19 indicators

论文地址：

https://www.pnas.org/content/118/51/e2111452118

Reinhart 等人描述了德尔菲研究组织当下建立和维护COVIDcast系统的相关工作，这是一个开放的、实时的美国新冠病毒疾病指标库。这些指标来基于一系列不同的数据源：医疗测试设备、医疗保险索赔、互联网搜索趋势、基于应用程序的移动数据和在线调查等等。许多指标被证明与大流行的关键数字（报告的病例、住院、死亡）有着有意义的统计关系，而其他指标则唯一地反映了某些可能推动或影响疫情传播的活动。该文章通过一系列实例说明，COVIDcast知识库中的指标可以提高传统公共卫生报告数据的及时性、可靠性和影响范围。

第二篇：如何改善疫情预测？

辅助指标能否改善 COVID-19 预测和热点预测？

论文题目：

Can auxiliary indicators improve COVID-19 forecasting and hotspot prediction?

论文地址：

https://www.pnas.org/content/118/51/e2111453118.full

McDonald等人详细分析了 COVIDcast 资源库中的一组核心指标是否可用于提高 COVID-19 短期预测和热点检测模型的准确性。这说明指标的定量效用与相关下游建模任务中观察到的收益直接相关。该论文发现，COVID-19预测模型在考虑和疫情相关的医疗索赔、自我报告症状和与疫情有关的谷歌搜索可以提高预测准确性。

第三篇：如何量化疫情影响？

美国 COVID-19 趋势和影响调查：持续实时测量 COVID-19 症状、风险、保护行为、测试和疫苗接种

论文题目：The US COVID-19 Trends and Impact Survey: Continuous real-time measurement of COVID-19 symptoms, risks, protective behaviors, testing, and vaccination

论文地址：https://www.pnas.org/content/118/51/e2111454118

Salomon等人关注美国CTIS (COVID-19 Trends and Impact Survey)，一个德尔菲研究组织与Facebook合作运营的在线调查项目。CTIS是针对大流行及其对人们影响的一个非常实用且丰富的数据来源，部分反映在COVIDcast 资源库的指标中。根据数据使用协议，研究人员可以获得个人、匿名调查回答的完整数据集。改文章提出了描述性分析，反映了CTIS作为公共卫生报告的重要补充的独特价值，特别是作为衡量有关行为、态度、经济影响和其他传统公共卫生流未涵盖的主题的关键信息的重要工具。

第四篇：如何开展国际合作？

通过从 Facebook 用户群中抽样的在线调查对 COVID-19 大流行的影响进行全球监测

论文题目：Global monitoring of the impact of the COVID-19 pandemic through online surveys sampled from the Facebook user base

论文地址：https://www.pnas.org/content/118/51/e2111455118

Astley等人关注国际版的CTIS，这是一个由马里兰大学和Facebook合作的在线调查。这一国际调查覆盖了100多个国家和地区，并与美国国内CTIS的协调，因此两者具有相似的结构和更新功能。根据数据使用协议，个人的、匿名的国际调查回答的完整数据会再次提供给个人研究人员。该研究的分析反映了国际调查的一些基本和重要特征，反映了CTIS在国外的价值，尤其是在一些公共卫生建设较有限的地区。

三、关于疫情追踪和预测的经验总结

德尔菲研究组织借此机会回顾过去一年半工作中的一些“教训”，并附有相应举例以方便读者更好理解。

看似简单的数据往往蕴含着数据的真正含义和复杂性

“COVID-19病例”或“COVID-19住院情况”等标签隐藏了大量的复杂性和潜在的模糊性，特别是当应用于具有良好地理和时间分辨率的数据时。必须做到不含糊、尽最大可能保持数据定义的一致性，并且必须记录和明确传达的术语的不同之处。下面将通过几个小例子来详细说明这一点。

举例1：病例可仅经实验室确诊或定义为疑似（“疑似”的定义因管辖区和时间而异）；它们可以按辖区网站上报告的日期、向公共卫生主管部门报告的日期、检测日期、标本采集日期或偶尔按症状出现日期（信息最充分，但往往无法获得或不适用）列出。因此，随便浏览一下当地和州卫生部门的网站就会发现，报告的内容存在很大的异质性。

举例2：死亡报告通常按其发生的县分列，住院患者的死亡报告可能与其居住的县不同。

举例3：“伴随”新冠肺炎住院或死亡与“因”新冠肺炎住院或死亡显著不同，两者的比例因年龄组和时间的不同而有显著差异。

了解数据生成过程对于下游应用程序至关重要

传统的公共卫生监测数据流和较新的数字监测流都是复杂过程的结果，有些过程与被监测对象的基本健康状况或活动有关，有的是跟报告本身有关。理解每个数据源的整个“数据生成过程”可能具有挑战性，但这对正确建模和有效使用数据绝对是必不可少的。同样，举几个示例来说明这一观点。

举例1：一些人群和一些医疗保健设施没有反映在商业索赔流程中。这些包括国防部的医疗保健系统、印度卫生服务、退伍军人事务、监狱系统和其他不按程序或服务报销的系统，以及医疗服务和医疗补助的医疗保险费用。相对于普通人群的患病率，这可能导致指标的显著偏差。

举例2：公共卫生报告数据通常会出现积压和报告延迟，任何特定日期的估计值都可以随着时间的推移随着错误的发现或其他数据的可用而修改。在流感大流行期间，审计、纠正和清理积压经常导致巨大的人为峰值和下降。

举例3：“日历效应”不仅影响着报告过程，也影响追求健康的行为和流行病传播过程本身中，且对这三个过程的影响不容易理清。重大节日和其他国家或地区事件与重大旅行、社会交往和其他影响疾病传播的独特行为有关。

紧急情况下的强制报告可能是繁重且不灵活的

医院提交的疫情报告由数十个数据指标组成，在全国约6000家医院已经达到极限的情况下，还花费了巨大的努力来制定、沟通、消除歧义，这给它们带来了沉重负担。虽然法定报告的某些方面仍然不可替代，但有效的替代监测可能会非常有用；它们可以提高法定报告数据的及时性、鲁棒性和实用性，同时减少收集负担。也就是说，当下远远没有饱和辅助监视的效用。在这一领域还需要做更多的工作，使得疫情追踪进入更可靠、更准确和更透明的下一阶段。

人类行为及其对流行病发展的影响很难衡量与建模

在美国政府组织的近十年的疫情预测演习中，努力的重点是模拟病原体的自然发展和可能的进化，而人类行为的适应发挥了次要作用。疫情表明，预测模型必须更密切地关注人类的反应行为，如果我们要考虑干预，情况就更是如此。不幸的是，人类行为的许多方面，如对政策和建议的遵守，并不是能通过公开可用的数据流来衡量的。

此外，即使我们手头有这些数据，整合它们的影响也需要重要的新的认知和行为模型，获取成果也具有不确定性。对政府、公共卫生官员和医疗保健专业人员的信任崩溃可能是最难衡量和建模的因素，但它们在美国和其他国家当前的疫情进程中发挥了不可否认的作用。

四、关于疫情预测的未来展望

2021年春天，有了在纷乱的一年中吸取的惨痛教训，研究者们将注意力转回德尔福研究组织最初的愿景，并思考：鉴于组织现在所处的位置和现在所了解的情况，怎样才能在疫情跟踪和预测方面向前迈出一大步？在这篇文章中，作者基于德尔菲研究组织未来愿景提出了几点监测方面的建议。

把电子病历作为流行病跟踪和预测的关键组件

预测和分析成功关键取决于丰富的实时数据源的可用性。鉴于法定报告的局限性，未来必须考虑其他数据来源的补充价值，其中最主要的是住院和门诊保健提供者、医学实验室和药房每天都在创建和使用的电子病历。这些数据资源的优势在于它们丰富、实时，并且已经在生成。

面临的挑战是，它们在美国高度分散，拥有6000家医院和100000家门诊护理设施。而另一挑战包括法律、道德、商业和运营，最重要的问题当然是病人的隐私。未来必须找到一种方法，在不损害个人隐私的情况下，将这些极具前景的数据用于公共利益。

在疫情监测的不同阶段需要不同的分析工具

在疫情爆发阶段，主要活动是威胁监控，即监控数据流和世界各地令人不安的事态发展。相关的统计工具包括异常检测和扫描统计，以帮助决定何时需要进行流行病学调查。在遏制阶段，必须严密监控、持续评估并最终遏制已发现的威胁。该阶段所需的分析性数据驱动工具包括对关键流行病学参数的实时估计。如果遏制失败，那么在缓解阶段，分析的目标将显著扩大，包括为缓解政策和规划提供信息。实时跟踪（临近预报）和短期预测（提前几周）可以在这些活动中发挥关键作用。

有用、可靠的长期预测仍然是未来的追求

过去几年的流感预测实践通常可以有效地量化正在进行的流感季节剩余时间的不确定性。然而，这一成功主要是基于几十年来对及时的流行病行为的观察。为了可靠地预测疫情的发展，在相关历史数据几乎不存在的情况下，我们必须对不同、多样的因素如何影响疾病传播性有详细的定量理解。但是，换个角度思考，当下有如此大量高精设备支持，也是尝试这一重要科技目标的难得机会。

参考文献

1 M. Biggerstaff et al.; Influenza Forecasting Contest Working Group, Results from the centers for disease control and prevention’s predict the 2013–2014 Influenza Season Challenge. BMC Infect. Dis. 16, 357 (2016).

2 M. Biggerstaff et al., Results from the second year of a collaborative effort to forecast influenza seasons in the United States. Epidemics 24, 26–33 (2018).

3 N. G. Reich et al., A collaborative multiyear, multimodel assessment of seasonal influenza forecasting in the United States. Proc. Natl. Acad. Sci. U.S.A. 116,3146–3154 (2019).

4 M. A. Johansson et al., An open challenge to advance probabilistic forecasting for dengue epidemics. Proc. Natl. Acad. Sci. U.S.A. 116, 24268–24274 (2019).

5 S. Y. Del Valle et al., Summary results of the 2014-2015 DARPA Chikungunya challenge. BMC Infect. Dis. 18, 245 (2018).

6 M. Ajelli et al., The RAPIDD Ebola forecasting challenge: Model description and synthetic data generation. Epidemics 22, 3–12 (2018).

7 C. Viboud et al.; RAPIDD Ebola Forecasting Challenge group, The RAPIDD ebola forecasting challenge: Synthesis and lessons learnt. Epidemics 22, 13–21 (2018).

8 Centers for Disease Control and Prevention, FluSight: Flu forecasting (2020). https://www.cdc.gov/flu/weekly/flusight/. Accessed 18 October 2021.

9 J. Ginsberg et al., Detecting influenza epidemics using search engine query data. Nature 457, 1012–1014 (2009).

10 J. S. Brownstein, C. C. Freifeld, L. C. Madoff, Digital disease detection—Harnessing the Web for public health surveillance. N. Engl. J. Med. 360, 2153–2157 (2009).

11 M. Salathé et al., Digital epidemiology. PLoS Comput. Biol. 8, e1002616 (2012).

12 T. A. Kass-Hout, H. Alhinnawi, Social media in public health. Br. Med. Bull. 108, 5–24 (2013).

13 M. Santillana et al., Combining search, social media, and traditional data sources to improve influenza surveillance. PLoS Comput. Biol. 11, e1004513 (2015).

14 M. J. Paul, M. Dredze, Social monitoring for public health. Synth. Lect. Inf. Concepts Retr. Serv. 9, 1–183 (2017).

15 T. A. Kass-Hout, X. Zhang, Biosurveillance: Methods and Case Studies (CRC Press, 2011).

16 S. J. Carlson et al., Flutracking weekly online community survey of influenza-like illness annual report 2011 and 2012. Commun. Dis. Intell. Q. Rep. 37, E398–E406 (2013).

17 C. Viboud et al., Demonstrating the use of high-volume electronic medical claims data to monitor local and regional influenza activity in the US. PLoS One 9, e102429 (2014).

18 M. S. Smolinski et al., Flu near you: Crowdsourced symptom reporting spanning 2 influenza seasons. Am. J. Public Health 105, 2124–2130 (2015).

19 M. Santillana et al., Cloud-based electronic health records for real-time, region-specific influenza surveillance. Sci. Rep. 6, 25732 (2016).

20 V. Charu et al., Human mobility and the spatial transmission of influenza in the United States. PLoS Comput. Biol. 13, e1005382 (2017).

21 C. E. Koppeschaar et al., Influenzanet: Citizens among 10 countries collaborating to monitor influenza in europe. JMIR Public Health Surveill. 3, e66 (2017).

22 C. Y. Yang, R. J. Chen, W. L. Chou, Y. J. Lee, Y. S. Lo, An integrated influenza surveillance framework based on national influenza-like illness incidence and multiple hospital electronic medical records for early prediction of influenza epidemics: Design and evaluation. J. Med. Internet Res. 21, e12341 (2019).

23 S. I. Leuba, R. Yaesoubi, M. Antillon, T. Cohen, C. Zimmer, Tracking and predicting U.S. influenza activity with a real-time surveillance network. PLoS Comput. Biol. 16, e1008180 (2020).

24 J. M. Radin, N. E. Wineinger, E. J. Topol, S. R. Steinhubl, Harnessing wearable device data to improve state-level real-time surveillance of influenza-like illness in the USA: A population-based study. Lancet Digit. Health 2, e85–e93 (2020).

25 S. F. Ackley et al., Assessing the utility of a smart thermometer and mobile application as a surveillance tool for influenza and influenza-like illness. Health Informatics J. 26, 2148–2158 (2020).

26 A. Reinhart et al., An open repository of real-time COVID-19 indicators. Proc. Natl. Acad. Sci. U.S.A. 118, e2111452118 (2021).

27 D. J. McDonald et al., Can auxiliary indicators improve COVID-19 forecasting and hotspot prediction? Proc. Natl. Acad. Sci. U.S.A. 118, e2111453118 (2021).

28 J. A. Salomon et al., The US COVID-19 Trends and Impact Survey: Continuous real-time measurement of COVID-19 symptoms, risks, protective behaviors, testing, and vaccination. Proc. Natl. Acad. Sci. U.S.A. 118, e2111454118 (2021).

29 C. M. Astley et al., Global monitoring of the impact of the COVID-19 pandemic through online surveys sampled from the Facebook user base. Proc. Natl. Acad. Sci. U.S.A. 118, e2111455118 (2021).

30 Reich Lab, The COVID-19 Forecast Hub (2020). https://covid19forecasthub.org. Accessed 18 October 2021.

31 S. Simon, Inconsistent reporting practices hampered our ability to analyze COVID-19 data. Here are three common problems we identified (COVID Tracking Project (2021). https://covidtracking.com/analysis-updates/three-covid-19-data-problems. Accessed 18 October 2021.

32 J. E. Wennberg, M. M. Cooper, The Dartmouth Atlas of Health Care in the United States (American Hospital Publishing, Chicago, IL, 1998).

33 National Center for Health Statistics, Provisional death counts for coronavirus disease 2019 (COVID-19) (2021). https://www.cdc.gov/nchs/nvss/vsrr/ COVID19/index.htm. Accessed 18 October 2021.

34 N. Fillmore et al., The COVID-19 hospitalization metric in the pre- and post-vaccination eras as a measure of pandemic severity: A retrospective, nationwide cohort study. Research Square [Preprint] (2021). https://www.researchsquare.com/article/rs-898254/v1 (Accessed 18 October 2021).

35 S. Arvisais-Anhalt et al., What the coronavirus disease 2019 (COVID-19) pandemic has reinforced: The need for accurate data. Clin. Infect. Dis. 72, 920–923 (2021).

36 E. Dong, H. Du, L. Gardner, An interactive web-based dashboard to track COVID-19 in real time. Lancet Infect. Dis. 20, 533–534 (2020).

37 National Center for Health Statistics, Pneumonia and influenza mortality surveillance from the national center for health statistics mortality surveillance system (2021). https://gis.cdc.gov/grasp/fluview/mortality.html. Accessed 18 October 2021.

38 A. Bilinski, E. Emanuel, J. A. Salomon, A. Venkataramani, Better late than never: Trends in COVID-19 infection rates, risk perceptions, and behavioral responses in the USA. J. Gen. Intern. Med. 36, 1825–1828 (2021).

39 Centers for Disease Control and Prevention, CDC Stands Up New Disease Forecasting Center: Media statement for immediate release: Wednesday, August 18, 2021 (2021). https://stacks.cdc.gov/view/cdc/108945. Accessed 18 October 2021.

40 E. J. Williamson et al., OpenSAFELY: Factors associated with COVID-19 death in 17 million patients. Nature 584, 430–436 (2020).

41 HL7 Community, Welcome to FHIR (2021). https://www.hl7.org/fhir/. Accessed 18 October 2021.

42 N. G. Reich, R. J. Tibshirani, E. L. Ray, R. Rosenfeld, On the predictability of COVID-19 (2021). https://forecasters.org/blog/2021/09/28/on-the-predictability-of[1]covid-19/. Accessed 18 October 2021.

43 H. Jalal, K. Lee, D. S. Burke, Prominent spatiotemporal waves of COVID-19 incidence in the United States: Implications for causality, forecasting, and control. medRxiv [Preprint] (2021). https://doi.org/10.1101/2021.06.29.21259726 (Accessed 18 October 2021).

（参考文献可上下滑动查看）

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅：

推荐阅读

点击“阅读原文”，追踪复杂科学顶刊论文