处理子抽样问题从有限数据中推断集体属性 | 复杂性科学顶刊精选7篇

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「我的集智」推送论文信息。

扫描下方二维码，关注“我的集智”服务号，即可订阅Complexity Express：

Complexity Express 一周论文精选

以下是2022年11月14日-11月20日来自Complexity Express的复杂性科学论文精选。如果Complexity Express列表中有你感兴趣的论文，欢迎点赞推荐，我们会优先组织解读~

目录：

1. 处理子抽样问题从有限数据中推断集体属性

2. 闭式连续时间神经网络

3. 基于图注意神经网络预测错义突变的功能影响

4. 默认模式网络中的内在大脑动力学预测视觉意识的无意识波动

5. 基于二维注意的深度神经网络预测蛋白质复合物链间距离图

6. 社会性昆虫空间分工的两种简单运动机制

7. 利用机器学习评估电力供应对生计的影响

1.处理子抽样问题

从有限数据中推断集体属性

论文题目：Tackling the subsampling problem to infer collective properties from limited data

论文来源：Nature Reviews Physics

论文链接：https://www.nature.com/articles/s42254-022-00532-5

尽管大规模数据采集技术不断发展，但复杂系统的实验观测往往仅限于被研究系统的一小部分。这种空间子抽样在神经科学中尤为严重，在神经科学中，只有数百万甚至数十亿个神经元中的一小部分可以被单独记录下来。当从一个子抽样部分推断出整个系统的集体属性时，空间子抽样可能导致实质性的系统偏差。为了消除这种偏差，人们开发了强大的数学工具。从这个角度来看，作者概述了近年来为解决子抽样问题而开发的子抽样和审查方法所产生的一些问题。这些方法使人们能够正确地评估现象，如图结构、动物的集体动力学、神经网络活动或疾病的传播，只需要观察系统的一小部分。然而，现有的方法总体上还远远没有解决子抽样问题，作者也概述了他们认为的主要开放挑战。随着大规模数据记录技术的发展，解决这些挑战将使人们能够对复杂和有生命的系统的工作机制有进一步的基本认识。

图：不同类别的子抽样。上图：空间嵌入网络的典型结构示意图；下图：从空间扩展系统中采样的不同方法，以无标度网络为例说明。随机抽样的优点是可以画出一组具有代表性的节点。加窗抽样提供了良好的局部分辨率，但样本可能不能代表整个系统。滚雪球抽样跟踪选定节点的连接状态，从而揭示该节点的连通性。

2.闭式连续时间神经网络

论文题目：Closed-form continuous-time neural networks

论文来源：Nature Machine Intelligence

论文链接：https://www.nature.com/articles/s42256-022-00556-7

连续时间神经网络是一类机器学习系统，可以解决时空决策任务的表示学习。这些模型通常由连续微分方程表示。然而，当它们被部署在计算机上时，它们的表达能力受到数值微分方程求解器的瓶颈限制。这种限制明显减缓了对许多自然物理现象（如神经系统的动力学）的扩展和理解。理想情况下，我们可以通过求解闭合形式的给定动力系统来规避这一瓶颈。众所周知，这在一般情况下是难以实现的。

在这里，我们表明有可能近似地解决神经元和突触之间的相互作用——自然和人工神经网络的组成部分——由液态时间常数网络（liquid time-constant networks）以闭合形式有效地构建。为此，我们计算了液态时间常数动力学中出现的一个积分的严格约束的近似解，该积分至今没有已知的闭式解。这个闭式的解决方案影响了连续时间和连续深度神经模型的设计。例如，由于时间明确地以闭式出现，该公式放松了对复杂数值求解器的需求。因此，与基于微分方程的模型相比，我们得到的模型在训练和推理方面要快1～5个数量级。更重要的是，与基于常微分方程的连续网络相比，闭式网络与其他深度学习实例相比，可以有显著的扩展。最后，由于这些模型来自于液体网络，与先进的递归神经网络模型相比，它们在时间序列建模中表现出良好的性能。

图：神经和突触动力学。突触后神经元通过基于非线性电导的突触模型接收刺激 I(t)。这里，S(t) 代表突触电流。该突触后神经元的膜电位动态由中间呈现的 DE 给出。这个方程式是 LTC 网络的基本构建块，没有已知的闭式表达式。在这里，我们为这个方程提供了一个近似解，它显示了非线性突触与闭式的突触后神经元的相互作用。

3.基于图注意神经网络

预测错义突变的功能影响

论文题目：Predicting functional effect of missense variants using graph attention neural networks

论文来源：Nature Machine Intelligence

论文链接：https://www.nature.com/articles/s42256-022-00561-w

准确预测有害错义突变对于解释基因组序列至关重要。虽然已经开发了许多方法，但是它们的性能有限。机器学习的最新进展和大规模可用的群体基因组测序数据为大大改进计算方法的预测提供了新的机会。本文提出了一种基于图注意力神经网络的图形错义变异致病性预测方法（gMVP）。它的主要组成部分是一个图，其中的节点捕获氨基酸的预测特征和由共进化强度加权的边，该图能够有效地汇集局部蛋白质背景及功能相关的全局位置信息。

基于深度突变测序数据的评估表明，gMVP 在鉴定 TP53，PTEN，BRCA1 和 MSH2 的损伤变异方面优于其他已发表的方法。此外，在神经发育异常的情况下，它实现了从头将病患和对照组的错义变体进行最优分离。最后，该模型支持迁移学习，以优化钠和钙通道中的功能上的功能丧失预测。总之，我们证明 gMVP 可以改善临床试验和遗传学研究中对错义变异的解释。

图：gMVP 概述。gMVP 使用图表征蛋白结构，其蛋白质上下文定义为128个氨基酸侧翼的参考氨基酸。感兴趣的氨基酸是中心节点(橙色) ，侧面的氨基酸是上下文节点(颜色为浅绿色)，所有上下文节点都与中心节点连接边的特征是协同进化强度，节点特征包括保守性和预测的结构特性。此外，中心节点特征包括氨基酸替代; 上下文节点特征包括一级序列和在人群中预期和观察到的罕见错义变体的数量。模型使用三个单层密集编码的输入特征潜在的向量表征，使用多头注意力（mulri-head attention）层学习上下文向量，然后使用递归神经层与 softmax 层连接。

4.默认模式网络中的内在大脑动力学

预测视觉意识的无意识波动

论文题目：Intrinsic brain dynamics in the Default Mode Network predict involuntary fluctuations of visual awareness

论文来源：Nature Communications

论文链接：https://www.nature.com/articles/s41467-022-34410-6

大脑活动可被组织为内生的时空模式，但是目前还不清楚这些内在模式是功能性的还是偶发的。利用功能磁共振成像脑电同步检测一个众所周知的双稳态视觉任务，我们表明，潜在的瞬时状态的内在脑电振荡可以预测即将到来的非自愿感知转换。预测主导感知转换的临界状态预测了楔前叶（precuneus PCU），默认模式网络（DMN）的关键节点和初级视觉皮层（V1）之间的相位耦合。这种状态的生命周期与 PCU – > V1 格兰杰因果之间的相互作用与感知波动率相关。我们的研究表明，大脑的内源性动力学是现象学相关的，因为当外部刺激保持不变时，它们可以引发潜在的视觉处理方式之间的转移。在这个意义上，内生的默认模式网络 DMN 动力学预设了意识的内容。

图：功能核磁指出默认神经网络在当前任务中有参与

5.基于二维注意的深度神经网络

预测蛋白质复合物链间距离图

论文题目：Prediction of inter-chain distance maps of protein complexes with 2D attention-based deep neural networks

论文来源：Nature Communications

论文链接：https://www.nature.com/articles/s41467-022-34600-2

残基距离信息对于预测蛋白质单体的三级结构或蛋白质复合物的四级结构非常有用。许多深度学习方法已经被开发出来，可以准确预测单体的链内残基-残基距离（intra-chain residue-residue），但很少有方法可以准确预测复合物的链间残基-残基距离。

我们开发了一种基于二维注意动力残差网络的深度学习方法 CDPred（即复合物距离预测）来解决这个问题。在两个同源二聚体数据集上测试，CDPred对前 L/5 链间接触的预测精度分别达到 60.94% 和 42.93%（L：同源二聚体中单体的长度），大大高于 DeepHomo 的 37.40% 和 23.08% 以及 GLINTER 的 48.09% 和 36.74%。在两个异构体数据集上测试，CDPred 的顶级 Ls/5 链间接触预测精度（Ls：异构体中较短单体的长度）分别为 47.59% 和22.87%，超过了 GLINTER 的 23.24% 和13.49%。此外，CDPred 的预测结果与 AlphaFold2-multimer 的预测结果具有互补性。

图：HeteroTest2 数据集中异二聚体的前 L/10 接触预测精度直方图。X轴为从0到100%的四个精度区间。Y轴是接触精度落在每个区间的异质体的数量。每个区间分别有40、2、1和12个异质体。

6.社会性昆虫空间分工的

两种简单运动机制

论文题目：Two simple movement mechanisms for spatial division of labour in social insects

论文来源：Nature Communications

论文链接：https://www.nature.com/articles/s41467-022-34706-7

许多动物物种将空间划分为成片的家域，但对于个体用来保持对特定地点的保真度的机制却没有什么共识。理论表明，动物运动可能基于简单的行为规则，这些规则使用局部信息（例如嗅觉沉积）或全局策略（例如对地标的长期偏爱）。然而，实证研究很少试图区分这些机制。

在这里，我们对四种社会性昆虫进行了个体追踪实验，发现栖息地由不同的工作群体组成，它们居住在独立但部分重叠的空间区域。我们的轨迹分析和模拟表明，工作个体的运动与两种局部机制相一致：一种是工作个体在其主要区域外增加运动扩散性，另一种是工作个体在接近区域边界时调节转向行为。与其它生物相似，表明局部机制可能代表了动物种群空间划分的一种普遍方法。

图：年龄、模块分数和任务之间的相关性验证了空间方法。（a, b）蜜蜂和蚂蚁工作群体表现出类似的模块之间的过渡，作为年龄的函数。堆积的条形图表示特定年龄个体的平均模块得分情况。横条表示每个年龄段个体的典型模块得分情况。（c,d）属于不同空间模块的工人表现出不同的任务概况。散点图表示应用于工作人员任务配置文件的 LargeVis 降维结果。点代表不同的个体。点分离表示任务配置文件的相似性。模块分数未用于 LargeVis 分析或任务定义中。

7.利用机器学习

评估电力供应对生计的影响

论文题目：Using machine learning to assess the livelihood impact of electricity access

论文来源：Nature

论文链接：https://www.nature.com/articles/s41586-022-05322-8

在世界许多地区，关于关键经济成果的稀缺数据抑制了公共政策的制定、定位和评估。我们展示了卫星图像和机器学习（ML）的进步如何帮助改善这些数据和推理的挑战。在乌干达电网扩张的背景下，我们展示了如何利用卫星图像和计算机视觉的组合，来开发适合推断电力接入对生计的因果影响的局部尺度的生计测量。然后，我们展示了基于机器学习的推理技术在应用于这些数据时，如何比传统的替代方法对电气化的因果影响提供更可靠的估计。

我们估计，在乌干达农村，电网接入提高了村级资产财富的 0.15 个标准差，在我们研究期间，相对于未处理的地区，增长率增加了一倍以上。我们的结果为基于电网的基础设施投资的影响提供了国家规模的证据，我们的方法为未来在数据稀少的环境中进行政策评估提供了低成本、可推广的方法。

图：电力接入率、乌干达电气化和资产财富培训数据。（a）2018年，撒南地区有近 6 亿人无法获得基于中央电网的电力。各国以缺乏电力供应的人数来标示。乌干达在2018年大约有2400万人没有电网供电，用红色边框标出。（b）乌干达的电网近年来迅速扩大，包括该国以前未通电的地区。（c）模型训练中使用的27,174个调查对象的财富指数（大致为村庄），从低资产财富到高资产财富的颜色。数据涵盖了25个国家，历时 13年，代表641,621个家庭调查。

关于Complexity Express

Complex World, Simple Rules.

复杂世界，简单规则。

由于学科交叉融合，大量针对复杂系统的研究成果散落在人工智能、统计物理、网络科学、数据科学、计算社会科学、生命科学、认知科学等等不同领域的期刊会议中，缺乏整合。

为了让大家能及时把握复杂系统领域重要的研究进展，我们隆重推出「Complexity Express」服务，汇总复杂系统相关的最新顶刊论文。

Complexity Express 是什么？

Complexity Express 每天爬取复杂系统领域最新发表的顶刊论文，每周通过“我的集智”服务号汇总推送。

进入 Complexity Express 页面即可随时查看顶刊论文更新，你也可以通过微信接收研究更新推送和一周汇总。

Complexity Express 为谁服务？

如果你是复杂系统领域的研究者，可获得重要论文上线通知，每周获取最新顶刊论文汇总。
如果你是复杂系统领域的学习者，可了解学界关注的前沿问题，把握专业发展脉络。
如果你是传统的生命科学、社会科学等学科中的研究者/学习者，可以从复杂科学和跨学科研究中获得灵感启发。
如果你是关注前沿研究发现的知识猎手，可获得复杂系统研究对自然和人类世界的最新洞见。

Complexity Express 栏目也是集智俱乐部公众号的主要选题来源，诚挚邀请你订阅，与我们信息同步。

Complexity Express 论文从哪里来？

考虑复杂系统研究往往属于跨学科工作，我们主要抓取综合类和泛物理类/计算机类的顶级期刊，从每周新发表的数百篇论文中精选出与复杂系统相关的论文。

Complexity Express 参考影响因子和学者口碑，选择了如下期刊，每日爬取其论文更新：

Nature
Science
PNAS
Nature Communications
Science Advances
Physics Reports
Physical Review Letters
Physical Review X
Nature Physics
Nature Human Behaviour
Nature Machine Intelligence
Review of Modern Physics
Nature Review Physics
Nature Computational Science
National Science Review
更多期刊持续增补中，欢迎推荐你认为重要的期刊！

如果你在 Complexity Express 中发现了感兴趣的论文，请立刻“点赞”！每周最高赞的论文，集智编辑部将组织专业解读~

Complexity Express 追踪哪些领域？

我们力求兼顾热点追踪与领域覆盖，目前筛选的论文主要集中在如下与复杂性关系密切的领域：

复杂系统基本理论
复杂网络方法及应用
图网络与深度学习
计算机建模与仿真
统计物理与复杂系统
量子计算与量子信息
生态系统、进化、生物物理等
系统生物学与合成生物学
计算神经科学与认知神经科学
计算社会科学与社会经济复杂系统
城市科学与人类行为
科学学
计算流行病学
以及一些领域小众，但有趣的工作

由于复杂性研究领域横跨多个学科，研究论文散落在不同的期刊上，很难不重不漏地把握最新工作。针对复杂性领域的论文筛选，我们专门设计了算法。经过数月的训练迭代优化，目前对上述领域爬取准确率达到90%以上。

将来我们还会根据你的具体研究领域，推出研究分类与个性化的订阅服务，敬请期待！

由于复杂性领域涉及的论文关键词和研究问题纷繁复杂，所以算法难免有不成熟的地方，如果你发现我们有漏掉的重要论文，或者爬到了领域有偏差的论文，欢迎联系我们（小助手微信：swarmaAI），帮助我们持续优化算法。

如果你对科学学、计算术语学等感兴趣并有代码能力，欢迎报名成为集智算法志愿者/实习生（具体请邮件联系算法组负责人huqiao@swarma.org）。

如果你对复杂科学及相关跨学科研究有长期兴趣，并乐于解读分享，欢迎加入集智作者团队（具体请邮件联系编辑部负责人liupeiyuan@swarma.org）。

更多论文

更多复杂性顶刊论文，请到Complexity Express页面查看。订阅即可每周获取更新提醒。

点击“阅读原文”，追踪复杂科学顶刊论文