集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。


扫描下方二维码,关注“集智斑图”服务号,即可订阅Complexity Express:           

 



Complexity Express 一周论文精选




以下是2022年9月26日-10月2日来自Complexity Express的复杂性科学论文精选。如果Complexity Express列表中有你感兴趣的论文,欢迎点赞推荐,我们会优先组织解读~

目录:

1. 基于Transformer 的正则潜在空间优化蛋白质生成

2. 网络效应导致的竞争市场非平衡相变

3. 拖延行为的神经计算解释

4. 噪声传染病曲线中信息的量化

5. 数据驱动神经网络中卷积结构的涌现

6. 科学精英的引用模式存在性别差异

7. 出生时的艰辛改变气候变化对长寿捕食者的影响


1.基于Transformer的

正则潜在空间优化蛋白质生成


论文题目:Transformer-based protein generation with regularized latent space optimization
论文来源:Nature Machine Intelligence
论文链接:https://www.nature.com/articles/s42256-022-00532-1#Fig2

强大的自然语言模型的发展提高了学习有意义的蛋白质序列表征的能力。此外,高通量诱变、定向进化和下一代测序的进展,使我们能够积累大量的标记适配数据。利用这两个趋势,我们介绍了正则化潜在空间优化(Regularized Latent Space Optimization, ReLSO),这是一个基于深度转化器的自动编码器,它的特点是一个高度结构化的潜空间,经过训练可以联合生成序列以及预测适配性。通过正则化预测头,ReLSO 引 入了一个强大的蛋白质序列编码器和一个高效的适配性景观遍历的新方法。使用 ReLSO,我们明确地对大型标记数据集的序列功能景观进行建模,并通过使用基于梯度的方法在潜在空间内进行优化来生成新分子。我们在几个公开的蛋白质数据集上评估了这种方法,包括抗拉尼珠单抗和绿色荧光蛋白的变体集。与其他方法相比,我们观察到使用 ReLSO 的序列优化效率更高(每个优化步骤的适配性增加),其中 ReLSO 更稳健地生成高适配性序列。此外,联合训练的 ReLSO 模型学到的基于注意力的关系为序列级的适配性信息提供了一个潜在的途径。

图:(a)为了编码蛋白质序列,ReLSO 使用基于转换器的编码器。Transformer 模块的输出使用基于注意力的池化机制进行池化,然后进一步压缩以产生输入序列的潜在表征。潜在点的集合形成了模型适配性景观。(b)ReLSO 使用辅助网络从潜在空间预测适配性,并使用基于范数的负采样技术在生成的潜在空间中强制执行伪凹形。辅助网络的选择会影响网络对负采样损失的敏感程度。顶行的图是使用惩罚网络生成的,以学习更平滑的函数,而底行的图是由传统的全连接网络生成的。(c)在 JT-AE 中,朴素联合训练方法的一个固有弱点是辅助网络经常学习单调函数。当用于潜在空间优化时,这样的函数缺乏任何停止标准。为了解决这个问题,本文重塑了适应度函数,使全局最大值位于训练数据中/附近。(d)负采样依赖于数据增强策略,其中在潜在空间的外围生成人工的低适配性点。(e)本文使用潜在空间中成对的远距离点之间的 100 次采样游走来监控潜在空间遍历期间序列和适配性的变化。x 轴表示沿所走路径的步长索引。y 轴显示当前步骤 zi 和最后一步 zn 之间表示属性的差异,因此当 zi = zn 时,差异在最后一步变为零。显示了平均值(线)和 95% 置信区间(阴影区域)。



2.网络效应导致的

竞争市场非平衡相变


论文题目:Nonequilibrium phase transitions in competitive markets caused by network effects
论文来源:PNAS
论文链节:https://www.pnas.org/doi/10.1073/pnas.2206702119


网络效应(network effects)是指一种产品由经济市场中的受欢迎程度所带来的附加值。受统计物理学中基于智能体的模型的启发,该研究提出了一个(几乎)无区别商品、具有需求侧网络效应的竞争市场最小理论,这些商品由统计上相同的卖家销售。在较弱的网络效应情况下,该模型再现了传统微观经济学:存在(接近)完全竞争的统计稳定状态。随着网络效应的增加,研究发现了一个由市场趋势的自发形成和崩溃所驱动的、到鲁棒非均衡相的相变。当卖方足够快地更新价格时,一个新兴的垄断者可以占领市场并削弱竞争,导致对称性和遍历性破坏的转变。非平衡阶段同时展示了三个在标准竞争市场理论中没有的现象:自发的价格波动、持续的卖方利润和公司市场份额的广泛分布。

图:单一卖家所面临的供需问题。蓝色线为真实需求曲线,黑色虚线为卖家预测需求曲线,黑色方块为导致市场崩溃的利润最大化点。



3.拖延行为的神经计算解释


论文题目:A neuro-computational account of procrastination behavior
论文来源:Nature Communications
论文链接:https://www.nature.com/articles/s41467-022-33119-w#Fig6


几乎所有的人都会在某种程度上拖延,要么是在填写纳税申报表、支付账单、退休储蓄表单,要么是戒烟或赌博等上瘾行为。尽管人们知道潜在的不利后果,如拖延可能导致潜在的经济困难或健康损害,但人们往往还是会这样做。尽管拖延症的发病率很高,影响了约 70% 的学生和高达 20% 的成年人,并造成重大的经济和健康后果,但人们对导致拖延症的机制知之甚少。

在这篇文章中,作者在跨期选择中使用功能磁共振成像(fMRI)来为预测独立测试中的拖延行为计算模型提供信息。拖延症在实验室被评估为:对于工作而言,倾向于在第二天完成一项任务而不是立即完成;对于居家而言,则表现为提交行政表单时的拖延。这些拖延行为分别被建模为将任务推迟到下一个时间步骤的单一的和重复的决定,基于一个整合了奖励和努力属性的净期望值,两者都由于延迟折现。与不同个体(包括实验室和家庭)的拖延行为相关的关键特征,是预期努力成本(由背内侧前额叶皮层发出信号)被任务完成前的延迟所减弱的程度。因此,拖延可能源于一种认知偏见,这种偏见会使晚些时候做一项任务(与现在相比)显得费力得多,但回报却少得多。

图:在一个试验中显示的连续屏幕从左到右显示,持续时间以 ms 为单位。(a)对任务评分。对于每一种奖励、努力和惩罚(未显示),参与者在键盘上指出主观收益(或主观成本)与获得(或失去)1 欧元和 5 欧元相同的数量。(b)跨期选择任务。参与者首先观察连续显示的两个选项,然后用左手或右手按下两个按钮中的一个来表示他们的偏好。早和晚选项的呈现顺序在试验中得到了平衡。该任务被划分为两种奖励、两种努力或两种惩罚(未显示)之间的跨时间选择块。(c)“现在/明天”选择任务。参与者被提供了一个包含奖励和努力项目的选项。然后他们选择是“现在”努力,立即获得奖励,还是“明天”努力,第二天获得奖励。“现在”和“明天”选项的展示在试验中得到了平衡。(d)“填表”家庭任务。参与者得到了 10 份行政表格,比如护照更新表格。为了获得参与研究的经济补偿,他们必须在 30 天内填写表格,并通过电子邮件发送数字副本。他们被告知,截止日期过后将不会有任何补偿转移。(e)实验进度。任务按字母顺序执行。只有跨期选择任务是在 MRI 扫描仪中执行的。



4.噪声传染病曲线中信息的量化


论文题目:Quantifying the information in noisy epidemic curves
论文来源:Nature Computational Science
论文链接:https://www.nature.com/articles/s43588-022-00313-1


从嘈杂的检测数据中可靠地估计传染病动力学,是现代流行病学中长期存在的问题。关键参数往往是从事件时间序列中推断出来的,目的是让决策者了解疾病暴发的增长率或检验关于公共卫生干预措施有效性的假设。然而,这些推论的可靠性主要取决于报告错误的时间序列固有延迟。

这里,我们开发了分析框架,以量化由报告不足和报告感染延迟引起的不确定性,以及对监测数据信息量进行排名的指标。我们将此指标应用于两个主要数据源以推断瞬时再生数:流行病例和死亡曲线。我们发现,死亡曲线更可靠的假设通常适用于 COVID-19 和流感等急性传染病,但在许多情况下并不明显,也可能不正确。我们的框架阐明并量化了有关病原体传播性的可用信息是如何由于监测限制而丢失的。

图:将不同病例数据源的对数似然曲率与其信息量相关联的示意图。左侧图中,没有一个最大似然估计值完全等于真实值,包括从事件感染模型中得出的估计值,因为任何疾病传播模型都不能完美反映显示。右侧表明较低曲率的可能性具有较低的信息量。在本研究中,事件感染曲线的信息量被设置为1,然后将不同数据源的信息量与事件感染模型的信息量作标准化对比。图片来自评论文章:https://www.nature.com/articles/s43588-022-00319-9



5.数据驱动神经网络中

卷积结构的涌现


论文题目:Data-driven emergence of convolutional structure in neural networks
论文来源:PNAS
论文链接:https://www.pnas.org/doi/10.1073/pnas.2201854119


利用数据不变性对于人工神经回路和生物神经回路的有效学习都是至关重要的。因此,了解神经网络如何发现能够利用其输入的潜在对称性的适当表征,对于机器学习和神经科学很重要。例如,卷积神经网络旨在利用平移对称性,其能力引发了第一波深度学习的成功。然而,截止目前,直接从全连接网络的平移对称性数据中学习卷积,已经被认为是难以实现的。

在本文中,我们展示了最初的全连接神经网络如何解决一个辨识任务,直接从其输入中学习卷积结构,从而产生局部的、空间平铺的感受野。这些感受野与这同一任务上训练的卷积网络的过滤器相匹配。通过自习设计视觉场景的数据模型,我们表明这种模型的出现,是由输入的非高斯、高阶局部结构所触发的——这一直被认为是自然图像的标志。我们在一个简单模型中提供了导致这种现象的模式形成机制的分析和数值表征,并发现了感受野形成和高阶输入相关性的张量分解之间的意外联系。这些结果为在各种感官模式中开发低层次特征检测器提供了一个视角,并为研究高阶统计量对于神经网络学习的影响铺平了道路。

图:现有的神经网络学习理论在 RF 的形成过程中被打破。在非线性高斯输入(NLGP[公式1],橙色)和高斯控制任务(GP,蓝色)上训练的具有 K=8 个神经元的网络的 pmse(10),长度尺度为ξ+=2ξ-=16。pmse 是在模拟过程中使用保留的测试数据计算的(实线)。我们还显示了在 GP上训练但在 NLGP 数据上评估的网络的测试误差(GP/NLGP,红色)。十字线给出了通过评估描述等效高斯模型误差的分析表达式得到的 pmse(材料和方法)。虽然分析表达式准确地预测了训练开始时的误差(蓝色阴影区域),但对于在 NLGP 上训练的网络来说,它在时间 102 前后出现了问题。这正是权重开始本地化的时间,正如本地化权重的平均 IPR(2)所衡量的(插图,绿色)。同时,网络预激活的超额峰度也在减少(插图,橙色)。其他参数如下:一维任务,D=L=400,学习率 η=0.05。曲线是 20 次运行的平均数。



6.科学精英的引用模式存在性别差异


论文题目:Gendered citation patterns among the scientific elite
论文来源:PNAS
论文链接:https://www.pnas.org/doi/10.1073/pnas.2206070119


科研多样性对于促进创新和提高科学工作者的能力是必要的。然而,尽管几十年来一直在努力增加科研中的性别多样性,但在许多领域(特别是在高级职位上)女性仍占少数。反过来,精英女科学家的缺乏,使得更少的女性成为年轻女科学家导师和榜样。该研究针对当选为国家科学院院士的杰出学者来阐明科学领域的性别差异,构建作者引文网络,捕捉学者同行之间的认可结构。研究发现了同行引用模式中的性别差异,并且这些差异能准确地预测学者性别。相比之下,该研究并没有观察到因影响力而造成的差异,高排名和低排名机构学者的引文结构几乎没有显著差异。这些结果进一步证明,学者的性别在科研成功的机制中发挥着作用。

图:历年不同性别或所属机构的影响力环境下当选成员人数,仅考虑截至2021年活跃在七个领域的成员。



7.出生时的艰辛改变气候变化

对长寿捕食者的影响


论文题目:Hardship at birth alters the impact of climate change on a long-lived predator
论文来源:Nature Communications
论文链接:https://www.nature.com/articles/s41467-022-33011-7


气候变化正在增加干旱或飓风等极端事件发生的频率,对人类和野生动物群落产生重大影响。极端事件可以通过两种途径影响个体:一是改变遭遇当前极端情况的成年个体的适应能力,二是影响在极端情况下出生的个体的发育,这个过程在很大程度上被忽视了。

本文展示了出生时干旱对鸟类捕食者的影响超过了当前几十年干旱的影响,因此在干旱中出生的个体在一生中都处于不利地位。考虑到出生的影响会导致预测种群数量下降40%,灭绝时间缩短21%。这些结果表明,气候变化对种群的侵蚀可能比目前所认识到的更快和更严重,这表明迫切需要在影响预测的分析工具中纳入对出生遗产的“惩罚”。类似的双重影响可能适用于全球变化的其他驱动因素。

图:两个主要假设考察了在发育过程中与在后来生命中遇到的条件之间相互作用的适应度影响。(a)发育约束猜想,(b)预测适应响应猜想。





关于Complexity Express




Complex World, Simple Rules.
复杂世界,简单规则。
由于学科交叉融合,大量针对复杂系统的研究成果散落在人工智能、统计物理、网络科学、数据科学、计算社会科学、生命科学、认知科学等等不同领域的期刊会议中,缺乏整合。

 

为了让大家能及时把握复杂系统领域重要的研究进展,我们隆重推出「Complexity Express」服务,汇总复杂系统相关的最新顶刊论文。

 

Complexity Express 是什么?

Complexity Express 每天爬取复杂系统领域最新发表的顶刊论文,每周通过“集智斑图”服务号汇总推送。
 
进入 Complexity Express 页面即可随时查看顶刊论文更新,你也可以通过微信接收研究更新推送和一周汇总。

               


Complexity Express 为谁服务?

  • 如果你是复杂系统领域的研究者,可获得重要论文上线通知,每周获取最新顶刊论文汇总。

  • 如果你是复杂系统领域的学习者,可了解学界关注的前沿问题,把握专业发展脉络。

  • 如果你是传统的生命科学、社会科学等学科中的研究者/学习者,可以从复杂科学和跨学科研究中获得灵感启发。

  • 如果你是关注前沿研究发现的知识猎手,可获得复杂系统研究对自然和人类世界的最新洞见。

Complexity Express 栏目也是集智俱乐部公众号的主要选题来源,诚挚邀请你订阅,与我们信息同步。
 

Complexity Express 论文从哪里来?

考虑复杂系统研究往往属于跨学科工作,我们主要抓取综合类和泛物理类/计算机类的顶级期刊,从每周新发表的数百篇论文中精选出与复杂系统相关的论文。
 
Complexity Express 参考影响因子和学者口碑,选择了如下期刊,每日爬取其论文更新:
  • Nature

  • Science

  • PNAS

  • Nature Communications

  • Science Advances

  • Physics Reports

  • Physical Review Letters

  • Physical Review X

  • Nature Physics

  • Nature Human Behaviour

  • Nature Machine Intelligence

  • Review of Modern Physics
  • Nature Review Physics
  • Nature Computational Science
  • National Science Review
  • 更多期刊持续增补中,欢迎推荐你认为重要的期刊!
 
如果你在 Complexity Express 中发现了感兴趣的论文,请立刻“点赞”!每周最高赞的论文,集智编辑部将组织专业解读~
 

Complexity Express 追踪哪些领域?

我们力求兼顾热点追踪与领域覆盖,目前筛选的论文主要集中在如下与复杂性关系密切的领域:
  • 复杂系统基本理论
  • 复杂网络方法及应用
  • 图网络与深度学习
  • 计算机建模与仿真
  • 统计物理与复杂系统
  • 量子计算与量子信息
  • 生态系统、进化、生物物理等
  • 系统生物学与合成生物学
  • 计算神经科学与认知神经科学
  • 计算社会科学与社会经济复杂系统
  • 城市科学与人类行为
  • 科学学
  • 计算流行病学
  • 以及一些领域小众,但有趣的工作
 
由于复杂性研究领域横跨多个学科,研究论文散落在不同的期刊上,很难不重不漏地把握最新工作。针对复杂性领域的论文筛选,我们专门设计了算法。经过数月的训练迭代优化,目前对上述领域爬取准确率达到90%以上。
 
将来我们还会根据你的具体研究领域,推出研究分类与个性化的订阅服务,敬请期待!
 
由于复杂性领域涉及的论文关键词和研究问题纷繁复杂,所以算法难免有不成熟的地方,如果你发现我们有漏掉的重要论文,或者爬到了领域有偏差的论文,欢迎联系我们(小助手微信:swarmaAI),帮助我们持续优化算法。

如果你对科学学、计算术语学等感兴趣并有代码能力,欢迎报名成为集智算法志愿者/实习生(具体请邮件联系算法组负责人huqiao@swarma.org)

如果你对复杂科学及相关跨学科研究有长期兴趣,并乐于解读分享,欢迎加入集智作者团队(具体请邮件联系编辑部负责人liupeiyuan@swarma.org)




更多论文




更多复杂性顶刊论文,请到Complexity Express页面查看。订阅即可每周获取更新提醒。
       


点击“阅读原文”,追踪复杂科学顶刊论文