科学的机器学习基准 | 复杂性科学顶刊精选7篇
集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。
扫描下方二维码,关注“集智斑图”服务号,即可订阅Complexity Express:
Complexity Express 一周论文精选
目录:
1、科学的机器学习基准
2、扩展的Poisson-Kac理论:有限传播速度随机过程的统一框架
3、早期生活的艰苦经历增加成年后的风险承受力和创业精神,但存在性别差异
4、地球系统预测的未来:模型-数据融合的进展
5、人脑的一生是什么样的
6、基于超图分解的群组测试应用于COVID-19检测
7、用全脑映射揭示单个记忆在大脑中的多区域分布
1.科学的机器学习基准
论文题目:Scientific machine learning benchmarks
论文来源:Nature Reviews Physics
论文链接:https://www.nature.com/articles/s42254-022-00441-7
深度学习改变了使用机器学习技术分析大型实验数据集的方式。在科学领域,此类数据集通常由大型实验设施生成,机器学习侧重于识别模式、趋势和异常,以便从数据中提取有意义的科学见解。在即将问世的实验设施中,例如英国的极限光子学应用中心(EPAC)或国际平方千米阵(SKA)射电望远镜,数据的生成速度和数据量规模将越来越需要使用更自动化的数据分析。然而,由于目前许多不同的机器学习框架、计算机体系结构和机器学习模型的潜在适用性尚不明确,为分析任何给定科学数据集确定的最合适的机器学习算法仍是一项挑战。从历史上看,对于高性能计算系统上的建模和仿真,这些问题都是通过对计算机应用、算法和架构进行基准测试来解决的。扩展这种基准测试方法并确定将机器学习方法应用于开放、精加工的科学数据集的指标,对于科学家和计算机科学家来说都是一个新的挑战。在这里,我们介绍了科学机器学习基准的概念并回顾了现有方法。作为一个例子,我们描述了用于科学机器学习基准测试的 SciMLBench 套件。
图:机器学习基准和基准测试套件的概念。(a)科学机器学习 (ML) 基准测试的要素。(b)构建一个集成了来自不同领域科学 ML 基准的科学 ML 基准测试套件。
2.扩展的Poisson-Kac理论:
有限传播速度随机过程的统一框架
论文题目:Extended Poisson-Kac Theory: A Unifying Framework for Stochastic Processes with Finite Propagation Velocity
论文来源:Physical Review X
论文链接:https://journals.aps.org/prx/abstract/10.1103/PhysRevX.12.021004
随机过程在为大量的非均衡传输问题(transport problems)建模方面发挥着关键作用,在整个自然科学和社会科学领域有着多方面的应用。为了建立随机动力学模型,传统的方法是在适当的确定性演化上叠加随机波动。这些波动是从先验规定的概率分布中取样的,最常见的是高斯分布或Lévy分布。虽然这些分布是基于(广义)中心极限定理,但它们仍然是无界的,这意味着可以用有限的概率获得任意大的波动。这一特性意味着违反了基本的物理原理,如狭义相对论,并可能产生能量等基本物理量的分歧( divergencie)。在这里,我们通过构建一个拥有物理现实中的有限传播速度的随机过程的综合理论框架来解决无界随机波动的基本问题。我们的方法受到Lévy游走(Lévy walks)理论启发,将其嵌入到传统的Poisson-Kac过程的扩展中。由此产生的扩展理论采用了广义的转移速率来模拟敏感的微观动力学,它再现了宏观尺度上的非微观时空相关性。因此,正如我们通过三个物理和生物上的例子所证明的那样,它能够对许多不同种类的动力学特征进行建模。相应的随机模型捕捉到了从正常扩散到异常扩散的整个扩散动力学光谱,包括引人注目的“布朗非高斯(Brownian yet non-Gaussian)”扩散,以及更复杂的现象,比如衰老。因此,扩展的Poisson-Kac理论可以用来模拟实验中观察到的各种有限速度动力学现象。
图:从Wiener过程(W)到Poisson-Kac 过程(PK)再到Lévy游走(LW),最后到扩展Poisson-Kac过程(EPK),在具有有限传播速度的随机运动学中不断提高的泛化水平的示意图。
3.早期生活的艰苦经历增加
成年后的风险承受力和创业精神,
但存在性别差异
论文题目:Early-life exposure to hardship increased risk tolerance and entrepreneurship in adulthood with gender differences
论文来源:PNAS
论文链接:https://www.pnas.org/doi/10.1073/pnas.2104033119
许多企业家把他们的成功归功于早期的艰苦经历。该研究利用中国大饥荒严重程度的地理差异来研究成长期面临的困难对个人的性格和参与创业的影响。为了排除可能混淆饥荒强度和创业精神之间关系的因素, 我们用随机天气冲击来模拟饥荒强度。我们发现的有力证据表明,经历过更多困难的人后来更有可能成为企业家(广义定义为个体户或企业主)。重要的是,创业精神的增长至少部分是由于艰难困苦影响而成的,而不是受其选择的。在行为机制上,困难经历与男性和女性的风险承受能力增强有关,但仅在男性中增加了企业所有权。性别差异可能是由于中国社会规范之间复杂关系造成的,例如男性更关注市场工作,而女性更关注家务工作,以及受到与职业选择相关的配偶间风险共担的影响。从科学上讲,这些发现有助于解决长期以来关于创业是由于天性还是后天培养的争论,特别是艰苦条件下人们如何成为创业者的。这些发现还强调了性别差异在塑造早期生活经历对生命周期结果影响方面的重要性。
图:描绘了四川省的饥荒强度。较深的颜色代表较高的饥荒强度。
4.地球系统预测的未来:
模型-数据融合的进展
论文题目:The future of Earth system prediction: Advances in model-data fusion
论文来源:Science Advances
论文链接:https://www.science.org/doi/10.1126/sciadv.abn3488
地球系统的预测,例如天气预报和气候预测,需要通过多个层次的观测来建立模型。一些整合模型和观测的方法是非常系统和全面的(如数据同化,data assimilation),还有一些是单一用途和定制的(例如,用于模型验证)。我们回顾了目前用于整合模式和观测的方法和最佳实践。我们强调未来的发展如何使先进的异构观测网络和模型,从而能够改进从天气到气候的各个尺度的地球系统(包括大气、地表、海洋、冰冻圈和化学)的预测。随着社会各界推动下一代模型和数据系统的发展,有必要对模型、观测和它们的不确定性采取更全面、综合和协调的方法,以最大限度地提高地球系统预测的效益和对社会的影响。
图:大气现象的空间和时间尺度示意图,从“微尺度”的气溶胶和云滴/晶体,到“中尺度”的云、龙卷风和雷暴,再到“天气尺度”的热带气旋(飓风)和温带气旋” ,直至大气环流和全球气候尺度。
5.人脑的一生是什么样的
论文题目:Brain charts for the human lifespan
论文来源:Nature
论文链接:https://www.nature.com/articles/s41586-022-04554-y
在过去的几十年中,神经成像技术已经成为了人类大脑的基础和临床研究中几乎不可或缺的工具。然而,对于个体神经成像测量技术随时间的变化,目前仍然没有像人的身高、体重成长曲线表等测量参考标准。本研究集合了一个互动开放的数据库(http://www.brainchart.io/),来为任何基于现在或将来的MRI(核磁共振成像)数据的人脑形态学样本定标。虽然基于不同人群的MRI研究存在不同的偏差,但为了让这样一个标准的制定是基于可及范围内最多的数据,本研究收集了一百多个原始实验中的123984份MRI扫描,数据来自于101457位个体,上至百岁老人,下至受孕115天的胚胎。MRI测量指标是通过大脑结构性变化的非线性轨迹百分位数和生命历程中的变化率来量化的。脑图揭示了一些先前研究所没有报道的神经发育里程碑,在纵向衡量中体现了个体的高度稳定性,也在不同技术手段与方法的原始研究之间表现出了足够的鲁棒性。相较于未未处理的MRI表型,百分位数方法下的脑图表现出了更好的遗传力,并提供了非典型大脑结构的标准化测量,揭示了神经与精神疾病的神经解剖学变异模式。总之,本研究所讨论的脑图是对神经成像表型中的个体变异以标准轨迹进行鲁棒量化的重要一步。
图:神经发育里程碑。上图是中位数条件下,大脑灰质体积(Grey Matter Volume, GMV)、大脑白质体积(White Matter Volume, WMV)、皮质下体积(Subcortical Volume)、脑室体积(Ventricular Volume)、全脑体积(Total Cerebrum Volume)、平均皮层厚度(Mean Cortical Thickness)、表皮面积(Total Surface Area)七个MRI表型指标随对数化的时间变化的标准曲线。曲线上使用圆圈标注了最大速度,三角标注了曲线所表示指标的最大值。下图则是一些结合数据库中研究的非MRI定义下的人体相关指标所跨越的年龄范围,包括了疾病覆盖的年龄段(蓝色)与诊断年龄段(黑框)在阿尔兹海默症(Alzheimer’s Disease, AD)、抑郁与双相障碍(Major Depressive Disorder, MDD; Bipolar Disorder, BD)、精神分裂(Schizophrenia, SCZ)、焦虑或恐惧症(Anxiety or Phobic Disorders, ANX)、注意力缺陷多动症(Attention Deficit Hyperactivity Disorder, ADHD)、孤独症谱系疾病(Autism Spectrum Disorder, ASD)这六种疾病中的年龄分布,以及其他成长、肥胖相关里程碑包含的时间范围等。
6.基于超图分解的群组测试
应用于COVID-19检测
论文题目:Group testing via hypergraph factorization applied to COVID-19
论文来源:Nature Communications
论文链接:https://www.nature.com/articles/s41467-022-29389-z
大规模筛选是生命科学的关键工具,但常常受到试剂、样品或成本的限制。最近一个重要的例子就是在面临资源限制的情况下,实现广泛的新冠检测。为了应对这一挑战,筛查方法必须有效地利用检测资源。然而,考虑到新冠是一个全球性的流行病,它们也必须简单(以帮助执行)和灵活(以适应每种环境)。本文提出了一种基于超图分解的群组测试方法:HYPER。我们在一般的统计模型下提供了理论特征,并在现实的传染病传播和病毒动力学模拟下仔细评估 HYPER 和为新冠检测提出的替代方案。我们发现 HYPER 在一系列测试受限的环境中匹配或优于替代方案,同时也更加简单和灵活。我们提供了一个在线工具来帮助实验室实现这一方法: http://hyper.covid19-analysis.org。
图:示例场景下HYPER的混样策略:一个12个人,其中2个人是实际阳性的。第一阶段构建6个混合池,每个人归属2个混合池。第二阶段判定出2个阳性。
7.用全脑映射揭示
单个记忆在大脑中的多区域分布
论文题目:Brain-wide mapping reveals that engrams for a single memory are distributed across multiple brain regions
论文来源:Nature
论文链接:https://www.nature.com/articles/s41467-022-29384-4
在海马体、杏仁核或大脑皮层已经发现了具有特定记忆的神经元集群(记忆印迹)。然而,也有假说认为特定记忆的记忆印迹分布在多个功能相连的大脑区域,称之为统一的记忆印迹复合体。我们通过使用小鼠组织表型分析描述了分布于247个区域的编码激活的神经元集群,报告了关于情景恐惧记忆的记忆印迹复合体的部分图谱。我们利用记忆印迹指数帮助绘制脑图谱,该指数识别出117个cFos+标记的大概率具有记忆印迹的脑部区域,并且通过记忆召回可以在全脑范围内重新激活这些神经元集群。光遗传操作实验验证了记忆印迹神经元集群,其中许多与海马体或杏仁体的记忆印迹有功能联系。相比于再激活单个记忆印迹集群,同时化学遗传再激活多个记忆印迹集群产生了更高的记忆召回水平,反映了自然记忆召回过程。总的来说,我们的研究支持记忆存储的统一记忆印迹复合体假说。
图:在情境恐惧记忆中组成统一记忆印迹复合体的部分记忆印迹细胞集群。图中显示出鉴定的记忆印迹细胞在小鼠脑矢状切面中的分布:海马(hippocampus,HPC)、丘脑室旁核(paraventricular nucleus of thalamus ,PVT)、前内侧丘脑(anteromedial thalamus,AM)、丘脑核仁(nucleus reuniens of thalamus,RE)、下丘脑前核(anterior hypothalamic nucleus,AHN)、基底外侧杏仁核(basolateral amygdala,BLA)、腹外侧眶皮层 (ventrolateral orbital cortex,VLO)、中脑导水管周围灰质(periaqueductal gray,PAG)、背外侧被盖核(laterodorsal tegmental nucleus, LDTg)。颜色指示记忆印迹指数的大小,表明包含记忆印迹细胞的可能性。
关于Complexity Express
Complex World, Simple Rules. 复杂世界,简单规则。
为了让大家能及时把握复杂系统领域重要的研究进展,我们隆重推出「Complexity Express」服务,汇总复杂系统相关的最新顶刊论文。
Complexity Express 是什么?

Complexity Express 为谁服务?
-
如果你是复杂系统领域的研究者,可获得重要论文上线通知,每周获取最新顶刊论文汇总。
-
如果你是复杂系统领域的学习者,可了解学界关注的前沿问题,把握专业发展脉络。
-
如果你是传统的生命科学、社会科学等学科中的研究者/学习者,可以从复杂科学和跨学科研究中获得灵感启发。
-
如果你是关注前沿研究发现的知识猎手,可获得复杂系统研究对自然和人类世界的最新洞见。
Complexity Express 论文从哪里来?
-
Nature
-
Science
-
PNAS
-
Nature Communications
-
Science Advances
-
Physics Reports
-
Physical Review Letters
-
Physical Review X
-
Nature Physics
-
Nature Human Behaviour
-
Nature Machine Intelligence
-
Review of Modern Physics -
Nature Review Physics -
Nature Computational Science -
National Science Review -
更多期刊持续增补中,欢迎推荐你认为重要的期刊!
Complexity Express 追踪哪些领域?
-
复杂系统基本理论 -
复杂网络方法及应用 -
图网络与深度学习 -
计算机建模与仿真 -
统计物理与复杂系统 -
量子计算与量子信息 -
生态系统、进化、生物物理等 -
系统生物学与合成生物学 -
计算神经科学与认知神经科学 -
计算社会科学与社会经济复杂系统 -
城市科学与人类行为 -
科学学 -
计算流行病学 -
以及一些领域小众,但有趣的工作
更多论文

点击“阅读原文”,追踪复杂科学顶刊论文