核心速递

走在巨人的肩膀下：在综合引文网络中追踪累积知识的传播;
动态复杂系统中的影响因子识别;

可恶的人或可恶的机器人？在阿拉伯语社交媒体中传播宗教仇恨的机器人的检测与特征;

自然环境下的群际联系：NBA相关论坛中群际和单群成员之间的语言差异特征;

基于贝叶斯逻辑回归的国内旅客多模态选择行为评估——以中国为例;

Twitter上地理标记行为的大规模实证研究;

不在家的范围：同行生产和城乡鸿沟;

电子音乐的精英、社区和好处有限的指导;

一项关于美国医疗众筹活动中社会不平等的截面研究;

一种用于文本网络嵌入的深度神经信息融合架构;

来自研究视角的维基数据——维基数据的系统映射研究;

通过局部信息维度识别复杂网络中的影响者;

竞争性含时网络中价值与成本权衡的增长动力学;

使用重要的环路来理解模型行为;

寻找你的脚：一个用于估计板球测试中击球手的能力的高斯过程模型;

走在巨人的肩膀下：在综合

引文网络中追踪累积知识的传播

原文标题：

Going beneath the shoulders of giants: tracking the cumulative knowledge spreading in a comprehensive citation network

地址：

http://arxiv.org/abs/1908.11089

作者：

Pietro della Briotta Parolo, Rainer Kujala, Kimmo Kaski, Mikko Kivelä

摘要：在所有科学研究中，出版物的作者都依赖于以前出版物提供的知识。因此，他们“站在巨人的肩膀上”，从以前的出版物到最近的出版物之间，存在知识流动。追踪这种知识流动的主导范式是计算直接引用的数量，但这忽略了这样一个事实，即在第一层引文下面还有一个完整的文献体系。在这项研究中，我们通过调查大约3500万份出版物的引文网络中的累积知识创建过程来探讨“肩膀”。特别是，我们研究了持续影响和扩散的程式化模型，这些模型考虑了所有可能的引用链关系。当我们研究出版物的持续影响价值及其引用次数时，我们发现与诺贝尔奖相关的出版物，即诺贝尔论文，在持续影响方面的排名高于其引用文献的排名，而且表现最佳的出版物通常是引发对应时代热门研究课题的早期作品。扩散模型揭示了不同研究领域共享知识的速率的显著变化。我们发现几十年来这些速率一直在增加，这可以通过出版量的增加来解释。总体而言，我们的结果表明，分析全球范围内的累积知识的创造，可用于估计单个出版物和整个研究领域的科学影响的类型和规模，以及通过仅使用直接引用计数产生无法发现的见解。

动态复杂系统中的影响因子识别

原文标题：

Influencer identification in dynamical complex systems

地址：

http://arxiv.org/abs/1907.13017

作者：

Sen Pei, Jiannan Wang, Flaviano Morone, Hernán A Makse

摘要： 许多现实世界的复杂系统的完整性和功能取决于一小部分关键节点或影响者。在不同的环境中，这些影响因子被定义为维持网络连通性的结构性重要节点，或者是可能不成比例地影响某些动态过程的关键单元。在实践中，识别给定系统中的最佳影响者集合，在各种学科中都具有深远意义。在这篇综述中，我们从不同角度，调查了系统影响者识别研究的最新进展，并提出了针对不同目标设计的最优解决方案。特别是，我们首先讨论寻找最小节点数的问题，这些节点的移除会破坏网络（即最佳渗透或网络拆除问题），然后调查了定位那些能够塑造全局动力学的节点的方法，包括连续的相变（例如，独立的级联模型）或不连续的相变（例如，阈值模型）。最后我们给出了总结和展望。

人可恶还是机器人可恶？

在阿拉伯语社交媒体中传播

宗教仇恨的机器人的检测与特征

原文标题：

Hateful People or Hateful Bots? Detection and Characterization of Bots Spreading Religious Hatred in Arabic Social Media

地址：

http://arxiv.org/abs/1908.00153

作者：

Nuha Albadi, Maram Kurdi, Shivakant Mishra

摘要： 阿拉伯语的Twitter社交媒体世界中，充斥各种机器人，它们加剧政治争斗，传播错误信息，并煽动宗派言论。虽然长期以来人们一直在努力分析和检测英语机器人，但阿拉伯语机器人的检测和表征仍然没有被充分研究。在这项工作中，我们对社交机器人在阿拉伯语Twitter上传播宗教仇恨的作用提出了新的见解，并引入了一种可以准确识别阿拉伯语机器人的新型回归模型。我们的评估表明，在检测英语机器人方面高度准确的现有工具，在阿拉伯语机器人上表现不佳。我们确定了这种不良表现的可能原因，对语言、内容、行为和网络功能进行了全面分析，并报告了区分阿拉伯机器人与人类之间的信息量最大的特征，以及阿拉伯语和英语机器人之间的差异。我们的结果标志着理解阿拉伯Twitter上恶意机器人行为的重要一步，并为更有效的阿拉伯机器人检测工具铺平了道路。

自然环境下的群际联系：

NBA相关论坛中群际和

单群成员之间的语言差异特征

原文标题：

Intergroup Contact in the Wild: Characterizing Language Differences between Intergroup and Single-group Members in NBA-related Discussion Forums

地址：

http://arxiv.org/abs/1908.10870

作者：

Jason Shuo Zhang, Chenhao Tan, Qin Lv

摘要： 长期以来，群体间接触一直被认为是减少群体之间偏见的有效策略。然而，最近的研究表明，对立群体在网络平台上暴露，可能会加剧两极分化（对立）。为了进一步了解在实践中积极参与群际接触的个体的行为，我们提供了一项关于群体间行为差异的大规模观察性研究，包括有群体间接触和没有群体间接触。我们利用Reddit上与NBA相关的讨论论坛的现有结构来研究职业体育的背景。我们将每个NBA球队的球迷确定为一个小组的成员，并追踪他们是否有群际联系。我们的结果显示，在控制活动水平后，具有群体间联系的成员在其附属群体中使用的语言比没有此类联系的群体更多。我们进一步量化了群体间接触的不同水平，并表明群际接触与群内行为之间可能存在非线性机制。我们的研究结果为新背景下的实验研究提供了补充证据，并阐明了先前研究中不同结果的可能原因。

国内旅客出行选择行为的贝

叶斯逻辑回归评价——以中国为例

原文标题：

Assessment of Multimodal Choice Behavior for Domestic Passengers Using Bayesian Logistic Regressions: A Case Study in China

地址：

http://arxiv.org/abs/1908.10913

作者：

Xiaowei Li, Xiaojiao Hu, Junqing Tang, Wei Wang

摘要： 本文研究了乘客多模式交通选择行为的影响因素，并提出了决策依据和改进策略。通过2018年3月1日至10日在中国西安市主要交通枢纽进行的综合实地调查，收集了大量个人数据，我们将数据中的21个变量与包括航空、高铁（HSR）、普快列车和高速巴士在内的四种旅行模式进行了比较。变量中，相关分析和共线性检验后，采用12个变量作为自变量，包括年龄，汽车保有量，票务方法，出行目的，出行距离，票价率，百公里城际出行时间，安全性，舒适，准时，准入时间和出发时间。使用贝叶斯二项Logistic回归（BBL）和贝叶斯多元逻辑回归（BMNL）研究旅行模式选择和自变量之间的回归关系。应用接收器操作特征（ROC）曲线来分析回归模型的预测性能。结果表明，使用BMNL的航空旅行、高铁、普快列车和高速巴士的ROC曲线的曲线下面积（AUC）分别为0.9785,0.92663,0.8614和0.9025。使用BBL的高速巴士ROC曲线的AUC值为0.8797，表明贝叶斯Logistic回归建立的乘客出行选择模型具有良好的预测能力。贝叶斯逻辑回归在交通模式选择中的应用有利于丰富交通模式选择行为的评估，本研究结果可为股东和决策者在实践中的交通管理策略提供依据。

Twitter上地理标记行为

的大尺度实证研究

原文标题：

A Large-Scale Empirical Study of Geotagging Behavior on Twitter

地址：

http://arxiv.org/abs/1908.10948

作者：

Binxuan Huang, Kathleen M. Carley

摘要： 社交媒体上的地理标记已成为了解人们移动性和社交活动的重要信息。使用地理标记来推断公众意见的研究，依赖于关于地理标记和非地理标记用户行为的几个关键假设。但是，这些假设尚未得到充分验证。缺乏对地理标记行为的理解，会阻止人们进一步利用它。在本文中，我们基于从2000万用户收集的超过400亿条推文，对Twitter上的地理标记行为进行了实证研究。有三个主要发现可能挑战这些常见假设。首先，不同的用户组具有不同的地理标记偏好。例如，只有不到3％的韩语用户进行过地理标记，而超过40％的印尼语用户使用过地理标记。其次，在配置文件中报告其位置的用户更可能使用地理标记，这可能会影响非地理标记用户的位置预测系统的可生成性。第三，用户的地理标记行为存在强烈的同质效应，用户倾向于连接具有相似地理标记偏好的朋友。

撰写维基和绘制地图的

不是当地人：同行生产和城乡鸿沟

原文标题：

Not at Home on the Range: Peer Production and the Urban/Rural Divide

地址：

http://arxiv.org/abs/1908.10954

作者：

Isaac Johnson, Allen Yilun Lin, Toby Jia-Jun Li, Andrew Hall, Aaron Halfaker, Johannes Schöning, Brent Hecht

摘要： 关于地点的维基百科、开放式街道地图功能以及其他形式的同行制作内容、已成为人类和智能技术的地理知识的重要来源。在本文中，我们探讨了同行生产（Peer Production）模式在农村/城市鸿沟中的有效性，这种鸿沟已被证明是许多在线社会系统中的一个重要因素。我们发现，在维基百科和开放街道地图中，同行制作的有关农村地区的内容系统性质较低，不太可能由专注于本地区域的贡献者制作，并且更有可能由自动化软件生成（即机器人）。然后，我们将通过同行生产描述农村现象的系统性挑战编成条目，并讨论可能的解决方案。

电子音乐的精英、社区和有限指导

原文标题：

Elites, communities and the limited benefits of mentorship in electronic music

地址：

http://arxiv.org/abs/1908.10968

作者：

Milan Janosov, Federico Musciotto, Federico Battiston, Gerardo Iñiguez

摘要： 数千年来，音乐一直是文化表达和认同的最强形式之一，并已发展成为一个强烈协作的艺术领域。虽然音乐成功的出现已经被广泛研究，但个人成功与合作之间的联系尚未完全揭示。在这里，我们的目标是通过分析数以万计的电子音乐艺术家的共同发布作品和指导学习模式的纵向数据，来填补这一空白。这些艺术家中最受欢迎的那些，是DJ杂志的年度百强排行榜上榜者。我们发现，虽然这个受欢迎的排名列表每次发布前100名，但只有前20名在时间上相对稳定，这展示了电子音乐明星的锁定效应。基于前100名音乐家在时序合作网络，我们发现了一个以电子音乐产业为特征的多元化社区结构。这些艺术家群体在时间上被隔离开来，围绕着核心一流音乐家，一个接一个地形成聚集，代表音乐流派的微小变化。我们表明，这些社区背后的主要建设力量是导师制度：进入前100名的音乐家有大约一半，在他们进入前100名之前，已经被当时在前100的领先音乐家指导过。我们还发现被指导者不太可能进入前20名，但是，与那些没有受过指导的人相比，他们的最佳排名要高得多。这意味着导师有助于提升人才，但成为历史级明星还需要更多条件。我们的研究结果提供了对电子音乐中成功与合作相互交织的作用的见解，突出了塑造电子音乐艺术精英形成和景观的机制。

一项关于美国医疗众筹活动

中社会不平等的横向研究

原文标题：

A cross-sectional study of social inequities in medical crowdfunding campaigns in the United States

地址：

http://arxiv.org/abs/1908.11018

作者：

Nora Kenworthy, Zhihang Dong, Anne Montgomery, Emily Fuller, Lauren Berliner

摘要： 美国人越来越依赖众筹来支付医疗费用。在医疗众筹中，在线平台允许个人呼吁社交网络请求捐赠以满足其健康和医疗需求。用户经常被告知，众筹的成功取决于他们如何组织和分享，以增加社交网络参与度。然而，专家警告说，医疗众筹可能通过扩大人群的选择和偏见，来确定谁可以获得医疗保健的财政支持，进而加剧健康和社会差异。迄今为止，关于医疗众筹差异的潜在要素及其对筹款结果的影响的研究受到限制。本文介绍了一个关于流行平台Gofundme的637个医疗众筹活动的随机样本的探索性横向研究，其中种族、性别、年龄以及筹款者和筹款接受者的关系，与活动特征和结果一起被分类。我们的分析检查医疗众筹使用中的种族、性别和年龄差异，并测试这些差异与不同的活动结果之间的关系。结果显示医疗众筹使用和结果的系统差异：非白人用户代表性不足。有大量证据表明，女性活动组织者需要额外的数字护理劳动负担，边缘种族和性别群体与较差的筹款结果相关。在用户的控制下，结果活动特征（例如照片，视频和更新）的相关性很小。这些结果证实了人们普遍担心的问题——技术如何加剧卫生不公平现象，以及众筹活动是如何为那些寻求获得医疗保健的财政支持的人创造一个不平等且有偏见的市场。研究者还需要进一步研究和更好的数据，以更深入地探索其背后的动力学，并为这个基本上不受监管的行业提供政策依据。

面向文本网络嵌入的

深度神经信息融合架构

原文标题：

A Deep Neural Information Fusion Architecture for Textual Network Embeddings

地址：

http://arxiv.org/abs/1908.11057

作者：

Zenan Xu, Qinliang Su, Xiaojun Quan, Weijia Zhang

摘要：文本网络嵌入的目的是学习网络中每个节点的低维表示，以便网络的结构信息和文本信息可以很好保存在网络表示中。传统上，结构和文本嵌入是通过较少考虑其相互影响的模型来学习的。本文提出了一种深度神经结构，将两种信息有效地融合为一种表示形式。该体系结构的新颖性体现在新定义的目标函数、结构特征和文本特征的互补信息融合方法，以及文本特征提取的互门机制（the mutual gate mechanism）方面。实验结果表明，该模型优于所有三个数据集的比较方法。

来自研究视角的维基数据——

维基数据的系统映射研究

原文标题：

Wikidata from a Research Perspective — A Systematic Mapping Study of Wikidata

地址：

http://arxiv.org/abs/1908.11153

作者：

Mariam Farda-Sarbas, Claudia Mueller-Birn

摘要： 维基数据（wikidata）是包含结构化数据的被编辑最多的知识库之一。它是wikimedia领域内外许多项目的数据来源。自2012年10月成立以来，它的社区和内容都在不断增长。这种增长反映在越来越多的研究以维基数据为重点。我们的研究旨在通过系统的绘图研究，提供对维基数据进行的研究的总体概述，以确定现有研究的覆盖范围和需要进一步研究的的空白区域。在这项研究中，从期刊和会议论文中选择了67项同行评审研究，并将其分为有意义的类别。我们通过出版频率、出版地点和来源，来描述该数据集，并揭示当前的研究重点。这些特别之处包括与数据质量有关的方面，包括与语言覆盖和数据完整性相关的问题。这些结果表明了许多未来的研究方向，例如多语言和克服语言差距、多元化对维基数据质量的影响、维基数据在各个学科中的潜力以及用户界面的可用性。

通过局部信息维度识别

复杂网络中的影响者

原文标题：

Identification of influencers in complex networks by local information dimension

地址：

http://arxiv.org/abs/1908.11298

作者：

Tao Wen, Yong Deng

摘要： 识别复杂网络中有影响力的传播者一直是网络特征研究的热门话题。已经提出了许多中心性度量方法来解决这个问题，但大多数方法都有其自身的局限和缺点。本文提出了一种通过局部信息维度识别复杂网络中影响因素的新方法。该方法考虑了中心节点周围的局部结构特性，因此局部尺度仅增加到距中心节点最短距离最大值的一半。因此，该提出的方法考虑了准局部信息并降低了计算复杂度。采用香农熵方法考虑框中的信息（节点数），这更合理。当该节点的本地信息维度较高时，该节点将更具影响力。为了验证该方法的有效性，使用五种现有的中心度量作为比较方法，来对六个真实复杂网络中的有影响的节点进行排序。此外，应用易感染（SI）模型和Kendall’s tau 系数来显示不同方法之间的相关性。实验结果表明了该方法的优越性。

竞争性含时网络中价值

与成本权衡的增长动力学

原文标题：

Growth Dynamics of Value and Cost Trade-off in Competitive Temporal Networks

地址：

http://arxiv.org/abs/1908.11433

作者：

Sheida Hasani, Razieh Masoomi, Jamshid Ardalankia, Mohammadbashir Sedighi, Hamid Jafari

摘要： 问题：真实世界的网络会发生什么，导致它们不能永久增长？这里的想法是，现实世界的网络必须为增长付出代价。我们通过成本和优先连接，一起调查了网络中价值和成本之间的增长和权衡。由于BA模型中的优先连接不考虑对网络的无限增长的任何阻碍，我们引入了BA模型的优先连接的修改版本。这个想法很有意义，因为真实网络的增长可能是有限的。在本研究中，通过结合含时网络（interval graphs区间图）中的优先连接，利用连接的价值和成本的一阶微分方程，说明了演化网络的未来均衡。在获得胜利的过程中，可能会出现诸如竞争成本、内部结构成本等不利于增长的变量。最后，通过应用这种修正模型，我们发现了在价值和成本之间进行权衡的情况。

使用重要的环路来理解模型行为

原文标题：

Understanding model behavior using loops that matter

地址：

http://arxiv.org/abs/1908.11434

作者：

William Schoenberg, Pål Davidsen, Robert Eberlein

摘要： 结构和行为之间的关系是系统动力学的核心，但是理解这种关系的有效工具尚未实现。循环优势分析领域的当前技术水平依赖于实践者的直觉和经验，或者以特征值分析和路径参与度量的形式进行复杂的算法操作。本文提出了一种新的独特方法，用于在生成模型行为时找到“重要的循环”。这是一种数值方法，能够确定模型中每个循环的影响，并确定每个时间点的主导行为。该方法的灵感来自对模拟过程中变量值变化的观察，并且通过对各种不同模型的经验评估进行了改进。除了能解释行为之外，该方法还显示出改进模拟结果的可视化和聚合的前景。

寻找你的脚：一个用于估计板球测试中击球手的能力的高斯过程模型

原文标题：

Finding your feet: a Gaussian process model for estimating the abilities of batsmen in Test cricket

地址：

http://arxiv.org/abs/1908.11490

作者：

Oliver George Stevenson, Brendon James Brewer

摘要： 在板球运动中，传统上使用击球率来衡量球员击球能力。然而，击球率不能衡量在一局中发生的能力的短期变化，以及由于年龄和经验等原因在两局之间发生的长期变化。我们推导并拟合了贝叶斯参数模型，该模型采用高斯过程，来测量和预测板球运动员的击球能力如何在整个职业生涯中变化和波动。结果显示，与传统板球统计数据（如击球率）和更复杂的模型（如官方国际板球理事会评级）相比，使我们能够更好地量化和预测球员击球能力。