集智斑图最新论文栏目,关注复杂系统、网络科学、计算社会科学、统计物理等领域的前沿进展,每天即时更新相关顶刊论文,和最新arXiv预印本论文。



本文是对近期arXiv论文的汇总编译(by 彩云小译)。更多最新论文,请扫二维码获取。

核心速递

  • 竞争 AI: 竞争反馈如何影响机器学习;

  • 采用 Twitter 的新长度限制: 280是新的140吗?;

  • 可扩展知识图分析的语义属性图;

  • 基于主体的子模块最大化中消息传递的影响;

  • 平等协商决策;

  • 计算机模型的定诱导点在线贝叶斯校正及其在尺度分辨 CFD 模拟中的应用;

  • 粒子物理实验结果的可重复性和复制;

  • 集体智慧的网络结构: 小组讨论的偶然收益;

  • 网络中的等级社区结构;

  • 利用局部结构特性提高分层社区检测方法的效率;

  • 是什么因素导致日本的县吸引了更多的人口流入?;

  • 复杂网络持续时间相关扩散动力学的分层粗粒度方法;

  • 基于主体的隐藏动作设置异构内存研究;



竞争 AI:

竞争反馈如何影响机器学习


原文标题:

Competing AI: How competition feedback affects machine learning

地址:

https://pattern.swarma.org/paper?id=46debe2e-f7e1-11ea-b107-0242ac1a000a

作者:

Antonio Ginart,Eva Zhang,James Zou


摘要:本文研究了竞争如何影响机器学习(ML)预测器。随着机器学习变得越来越普遍,它经常被公司用来争夺客户。例如,像 Yelp 这样的数字平台使用机器学习来预测用户偏好并提出建议。一个更经常被用户询问的服务,也许是因为它能更准确地预测用户的偏好,也更有可能获得额外的用户数据(例如 Yelp 评论的形式)。因此,相互竞争的预测器会导致反馈循环,预测器的表现会影响它接收到的训练数据,并随着时间的推移使预测偏差。我们引入了一个灵活的机器学习预测模型,使得快速实验和理论上的可处理性都成为可能。我们通过经验和数学分析表明,竞争导致预测者专门化特定的亚种群,而代价是比一般种群表现更差。我们进一步分析了预测专业化对用户整体预测质量的影响。我们的研究表明,在一个市场中拥有太少或太多的竞争预测器会损害整体的预测质量。我们的理论通过使用流行的学习算法,如神经网络和最近邻方法在几个真实数据集上的实验得到了补充。



采用 Twitter 的新长度限制: 

280是新的140吗?


原文标题:

Adoption of Twitter’s New Length Limit: Is 280 the New 140?

地址:

https://pattern.swarma.org/paper?id=a2a54b34-f89e-11ea-9fd9-0242ac1a000a

作者:

Kristina Gligorić,Ashton Anderson,Robert West


摘要:2017年11月,推特将允许的最大推文长度从140个字符提高到280个字符,对于这个世界上最有影响力的社交媒体平台之一来说,这是一个巨大的转变。在第一个关于 Twitter 用户如何采用新长度限制的长期研究中,我们提出了这样一个问题: 新长度限制的影响是否与旧长度限制的影响相似?或者,限制的翻倍从根本上改变了 Twitter 被限制发布内容的方式?通过分析3年内 Twitter 1% 的公开样本,我们发现,当长度限制从140个字符提高到280个字符时,大约140个字符的发布率立即下降,而大约280个字符的发布率在6个月内稳步上升。尽管这个数字有所上升,但是接近长度限制的推文在转换之后远不如转换之前频繁。我们发现不同语言和客户端设备类型的采用率差异很大。在某种语言转换之前,tweets 的流行度大约为140个字符,这与转换之后 tweets 的流行度大约为280个字符密切相关,而且很长的 tweets 在网络客户端上比在移动客户端上更受欢迎。此外,切换后大约280个字符的推文在语法和语义上与切换前大约140个字符的推文相似,这两种情况都显示了信息压缩的模式。综上所述,这些发现表明,新的280个字符的限制是旧的140个字符限制的新版本,侵入性较小。长度限制仍然是所有使用 Twitter 数据的研究中应该考虑的一个重要因素。



可扩展知识图分析的语义属性图


原文标题:

Semantic Property Graph for Scalable Knowledge Graph Analytics

地址:

https://pattern.swarma.org/paper?id=968c2674-f89e-11ea-9fd9-0242ac1a000a

作者:

Sumit Purohit,Nhuy Van


摘要:图是描述各种复杂系统的活动、关系和进化的自然和基本表示。许多领域,例如通信、引用、采购、生物学、社交媒体和交通,都可以被建模为一组实体及其关系。资源描述框架(RDF)和标记属性图(LPG)是两种最常用的数据模型,用于在图中对信息进行编码。这两个模型在使用基本图元素(如节点和边)方面相似,但在建模方法、表达能力、序列化和目标应用程序方面有所不同。是一个灵活的数据交换模型,用于表达实体的信息,但是它的内存占用率很高,存储效率也很低,这并不意味着它是执行可伸缩图形分析的自然选择。相比之下,LPG 作为一种可靠的模型在执行子图匹配、网络对齐和实时知识图查询等可伸缩图形分析任务方面获得了越来越多的关注。它提供了高效的存储、快速遍历和对各种实际域建模的灵活性。同时,知识表示缺乏本体等形式化知识表示的支持,无法实现知识的自动推理。我们提出语义属性图(SPG)作为具体化的 RDF 到 LPG 模型的逻辑投影。SPG 继续使用 RDF 本体来定义投影图的类型层次结构,并根据给定的本体对其进行验证。我们提出了一个框架,使用两种不同的计算环境将具体化的 RDF 图转换为 SPG。我们还介绍了使用 amazonweb 服务的基于云的图迁移功能。



基于主体的子模块最大化中

消息传递的影响


原文标题:

The Impact of Message Passing in Agent-Based Submodular Maximization

地址:

https://pattern.swarma.org/paper?id=4642b696-f7e1-11ea-b107-0242ac1a000a

作者:

David Grimsman,Matthew R. Kirchner,João P. Hespanha,Jason R. Marden


摘要:子模块最大化问题是许多现实世界应用程序的相关模型集。由于这些问题一般都是 np 难问题,因此人们发展了许多在多项式时间内逼近最优解的方法。其中一种方法使用基于代理的贪婪算法,其目标是让每个代理从其动作集中选择一个动作,以便所选择的所有动作的联合尽可能高。最近的工作已经表明贪婪算法的性能是如何随着代理之间共享的信息量的减少而降低的,而这项工作处理的场景是代理能够共享比贪婪算法允许的更多的信息。具体而言,我们将展示随着代理能够传递消息,性能保证如何增加,这可以增加每个代理允许的决策集。在这种情况下,我们展示了一种近乎最优的消息传递方法,以及这种算法在多大程度上可以提高任何给定问题实例的性能。



平等协商决策


原文标题:

Egalitarian Deliberative Decision Making

地址:

https://pattern.swarma.org/paper?id=45a383e6-f7e1-11ea-b107-0242ac1a000a

作者:

Edith Elkind,Davide Grossi,Ehud Shapiro,Nimrod Talmon


摘要:我们研究一种环境,在这种环境中,一个社区希望从众多备选方案中确定一个得到强有力支持的提案,以改变现状。我们描述了一个审议过程,在这个过程中代理人围绕他们喜欢的建议动态地形成联盟,而不是保持现状。我们制定了提案空间和联盟形成方式的条件,以保证审议取得成功,即通过确定获得最大支持的% 多数支持的提案而终止。我们的研究结果为分析民主审议支持系统中的审议过程提供了理论基础,例如,清算反馈。



计算机模型的定诱导点

在线贝叶斯校正及其

在尺度分辨 CFD 模拟中的应用


原文标题:

Fixed Inducing Points Online Bayesian Calibration for Computer Models with an Application to a Scale-Resolving CFD Simulation

址:

https://pattern.swarma.org/paper?id=4111b4f6-f7d7-11ea-b107-0242ac1a000a

作者:

Yu Duan,Matthew Eaton,Michael Bluck


摘要:提出了一种新的固定诱导点在线贝叶斯校准算法(FIPO-BC) ,该算法利用基准数据库有效地学习模型参数。标准贝叶斯校正(STD-BC)算法提供了一种统计学方法来校正昂贵的计算模型的参数。然而,STD-BC 算法在数据点数量上的适应性很差,缺乏在线学习能力。提出的 FIPO-BC 算法大大提高了计算效率,并通过在一组预定义的诱导点上进行标定实现了在线标定。为了演示 FIPO-BC 算法的过程,我们进行了两个测试,找出了最佳值,并探索了其后验概率: 1)用简单函数表示的参数; 2)用于分辨比例尺湍流模型(SAS-SST)的高波数阻尼因子。比较了不同诱导点的 FIPO-BC 与 STD-BC 的结果(如标定的模型参数及其后验概率)。结果表明,一旦 FIPO-BC 中预定义的诱导点集足够精细,FIPO-BC 和 STD-BC 可以提供非常相似的结果。但是,FIPO-BC 算法至少比 STD-BC 算法快十倍。同时,FIPO-BC 的在线功能允许不断更新校准输出,并可能减少生成数据库的工作量。



粒子物理实验结果的可重复性和复制


原文标题:

Reproducibility and Replication of Experimental Particle Physics Results

地址:

https://pattern.swarma.org/paper?id=3fac2e2a-f7d7-11ea-b107-0242ac1a000a

作者:

Thomas R. Junk,Louis Lyons


摘要:最近的“复制危机”使许多科学领域的从业人员和期刊编辑仔细检查他们的方法和出版标准。实验粒子物理学家也不例外,但物理学这一分支领域的一些独特特征使得重现和复制结果的问题成为一个非常有趣和信息丰富的话题。这些实验需要多年的时间来设计、建造和操作。由于设备如此庞大和复杂,就像大型强子对撞机和它的相关粒子探测器一样,成本非常高。大规模的合作产生和检查结果,许多论文都有超过三千名作者的签名。实验粒子物理学是一个成熟的领域,具有很强的传统性和合作性。本文介绍了什么是实验粒子物理学和一些用于分析数据的工具。它描述了程序,以确保结果可以计算复制,包括内部和外部。它还描述了粒子物理学家用来最大化结果可靠性的方法,这增加了它们可以被其他合作或者甚至同样的合作以及更多的数据和新的人员复制的可能性。给出了后来被发现为 false 的结果示例,其中包括复制尝试失败和一些复制成功得令人震惊的结果。虽然粒子物理实验的一些特点是独特的,但许多程序和技术可以并且正在应用于其他领域。



集体智慧的网络结构: 

小组讨论的偶然收益


原文标题:

Network Structures of Collective Intelligence: The Contingent Benefits of Group Discussion

地址:

https://pattern.swarma.org/paper?id=82bfad74-f7d5-11ea-b107-0242ac1a000a

作者:

Joshua Becker,Abdullah Almaatouq,Agnes Horvat


摘要:关于信念形成的研究已经得出了相互矛盾的结论,即群体成员之间的沟通是否以及何时能够提高诸如经济预测、医疗诊断和职位候选人评估等数字估计的准确性。虽然一些证据表明,像“德尔菲法”这样仔细调解的过程比无组织的讨论产生更准确的信念,但其他人认为,无组织的讨论优于调解的过程。还有一些人认为,独立的个体会产生最准确的信念。本文阐述了信念形成的网络理论是如何解决这些矛盾的,即使在群体缺乏明显结构的情况下也是如此。影响的涌现网络结构与讨论前的信念分布相互作用,协调沟通对信念形成的影响。因此,沟通有时会增加,有时会降低群体中平均信念的准确性。中介过程和非结构化沟通的影响各不相同,因此每种沟通方式的相对利益既取决于群体动态,也取决于前互动信念的统计特性。这些结果解决了以前研究中的矛盾,并为团队和组织提供了实用的建议。



网络中的等级社区结构


原文标题:

Hierarchical community structure in networks

地址:

https://pattern.swarma.org/paper?id=80340fbe-f7d5-11ea-b107-0242ac1a000a

作者:

Michael T. Schaub,Leto Peel


摘要:模块化和层次化结构在现实世界的复杂系统中普遍存在。为了探测和研究这些结构,人们付出了巨大的努力。在探测模块或”社区”结构方面的重要理论进展包括通过使用概率生成模型正式定义社区结构来确定可探测性的基本限度。检测等级社区结构除了从社区检测继承的挑战之外,还引入了其他挑战。在这里,我们提出了一个关于网络中等级社区结构的理论研究,到目前为止还没有得到同样严格的关注。我们解决以下问题: 1) ~ 我们应该如何定义一个有效的社区层次结构?2)我们应该如何确定网络中是否存在一个层次结构?3) ~ 我们如何有效地检测层次结构?通过引入基于随机外部公平划分概念及其与概率模型(如流行的随机块模型)之间的关系的层次结构定义,我们探讨了这些问题。我们列举了检测层次结构所面临的挑战,并通过研究层次结构的光谱特性,提出了一种有效的检测层次结构的原则性方法。



利用局部结构特性

提高分层社区检测方法的效率


原文标题:

On the use of local structural properties for improving the efficiency of hierarchical community detection methods

地址:

https://pattern.swarma.org/paper?id=7943ea1c-f7d5-11ea-b107-0242ac1a000a

作者:

Julio-Omar Palacio-Niño,Fernando Berzal


摘要:社区检测是复杂网络分析中的一个基本问题。它与网络数据挖掘中的聚类相似。在社区检测方法中,分层算法很流行。然而,它们的迭代特性和重新计算用于分割网络的结构特性(即 Girvan 和 Newman 算法中的边界介于两者之间)的需要,使得它们不适用于大型网络数据集。本文研究了如何利用局部结构网络特性作为代理来提高分层社区检测的效率,同时在模块化方面取得竞争性的结果。特别是,我们研究了通常用于执行本地链接预测的结构特性的潜在用途,这是一个社区结构相关的监督式学习问题,因为节点倾向于与其社区内的其他节点建立新的链接。此外,我们检查了作为辅助策略的网络剪枝启发式的性能影响,使层次社区检测更有效。



是什么因素导致日本的县

吸引了更多的人口流入?


原文标题:

What factors have caused Japanese prefectures to attract a larger population influx?

地址:

https://pattern.swarma.org/paper?id=7943ea1c-f7d5-11ea-b107-0242ac1a000a

作者:

Keisuke Kokubun


摘要:长期以来,日本政府的目标一直是在东京进行区域宣传和集中管教。此外,在最近的新型冠状病毒(2019冠状病毒疾病)流行之后,农村移民的势头正在加强,以防止通过远程工作的渗透而感染的风险。然而,关于什么样的土地会吸引人口还没有足够的争论。因此,在本文中,我们将以人口流入率和人口超额流入率作为因变量,使用每个辖区最近的政府统计数据,通过相关分析和多重回归分析分析来考虑这个问题。分析结果表明,除了经济因素变量外,气候、舒适度和人文因素变量与流入率相关,并且模型在多因素加上特定因素的情况下有最大的解释力。因此,地方省份必须采取区域促进措施,不仅注重经济因素,而且注重吸引外来人口的多方面因素。



复杂网络持续时间相关扩散

动力学的分层粗粒度方法


原文标题:

Hierarchical Coarse-grained Approach to the Duration-dependent Spreading Dynamics in Complex Networks

地址:

https://pattern.swarma.org/paper?id=c4c88d96-f7d3-11ea-b107-0242ac1a000a

作者:

Jin-Fu Chen,Yi-Mu Du,Hui Dong,Chang-Pu Sun


摘要:为了研究网络中的扩散动力学,人们提出了各种粗粒度模型。需要一个微观理论将扩散动力学与个体行为联系起来。本文将微观动力学分解为老化过程和接触过程两个基本过程,统一了对复杂网络上不同扩散动力学的描述。建立了描述网络中单个节点动力学行为的微观动力学方程。获得了持续时间粗粒度(DCG)方法的层次结构,用于研究持续时间相关的过程,其中转换率依赖于状态上单个节点的持续时间。应用于流行病传播,这种形式可以再现不同的流行病模型,如易感-感染-康复模型和易感-感染-易感模型,并将相应的宏观传播参数与微观转化率联系起来。DCG 方法使我们能够得到具有任意持续时间依赖的恢复率和感染率的一般 SIS 模型的稳态。当前的等级形式主义也可以用来描述信息和公众意见的传播,或者用来模拟网络中的可靠度理论。



基于主体的

隐藏动作设置异构内存研究


原文标题:

On Heterogeneous Memory in Hidden-Action Setups: An Agent-Based Approach

地址:

https://pattern.swarma.org/paper?id=a47508e4-f7d3-11ea-b107-0242ac1a000a

作者:

Patrick Reinwald,Stephan Leitner,Friederike Wall


摘要:我们遵循代理化的方法,将 Holmstr 引入的标准隐藏动作模型转换为个体为本模型。这样做可以使我们放松一些与(i)环境信息的可用性以及(ii)委托人和代理人的认知能力(特别关注他们的记忆力)有关的合并的、相当”英勇”的假设。与标准的隐藏行动模型相反,委托人和代理人被建模来了解随着时间的推移具有不同能力的环境,以处理学习到的信息片段。此外,我们还考虑了环境的不同特征。我们的分析主要集中在激励机制的接近程度和速度上,这种激励机制是从个体为本模型中内生出来的,收敛到标准的隐藏行为模型所提出的次优解决方案。此外,我们还研究了是否可以从个体为本模型变体中得到一个稳定的解决方案。结果表明,在稳定的环境下,突发事件处理的结果基本上能够达到标准隐动作模型所提出的解。令人惊讶的是,结果表明环境中的动荡导致了早期时期的稳定性。


来源:集智斑图
编辑:王建萍



复杂系统前沿文献交流群


如果你经常关注复杂系统和跨学科研究进展,是网络论文速递栏目的长期读者,欢迎扫描集智小助手,向我们反馈你的需求。欢迎提出宝贵意见,我们一起来探索追踪前沿进展的更好方式。


参与论文速递用户调研后,我们将邀请你加入集智的科研文献交流群



近期网络科学论文速递


知识史的社会网络分析 | 网络科学论文速递9篇

基于自注意机制的有向网络时间链路预测 | 网络科学论文速递25篇

用于三维多目标跟踪的图形神经网络 | 网络科学论文速递34篇

组织间专利对抗网络: 公司如何形成对抗关系 | 网络科学论文速递13篇

新冠病毒大流行中的Twitter国家形象:以中国为例 | 网络科学论文速递11篇

加入集智,一起复杂!





集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ 


搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


👇点击“阅读原文”,了解更多最新arxiv论文