在线分工:开源软件中的涌现结构 | 网络科学论文速递18篇-集智俱乐部

心速递

  • 在线分工:开源软件中的涌现结构;

  • 多热紧凑型网络嵌入;

  • 社会学习对隐私保护数据收集的影响;

  • 一般数据保护规则(GDPR)对社会网络研究的影响分析;

  • 投入产出易感性带来的经济弹性改善了对经济增长和复苏的预测;

  • 同质活动系统中由网络拓扑调节的图灵斑图;

  • 覆盖问题和超图的核渗流;

  • 价格模型中最长的路径;

  • Web缺少基础架构的重要组成部分:开放的Web索引;

  • DeepTagRec:基于内容和用户的Stack Overflow标签推荐框架;

  • 恢复中的Redditors:挖掘Reddit文本调查药物成瘾转变;

  • 迈向新的社会实验室:通过燃烧人的社区参与进行搜索实验研究;

  • Web上的图数据:扩展主轴,不要重新发明轮子;

  • 公路交通数据:基于高D数据集的宏观、微观和关键性分析,用于刻画相关交通情景和交通建模;

  • 地理本地微博应用中的标签使用;

  • 整合的悖论——二维状态动力学;

  • 推特上的单词尺度律;

  • 使用联合药物治疗将疟疾从地方性流行病变为根除状态:基于主体的模型方法;

在线分工:开源

软件中的涌现结构

原文标题:

Online division of labour: emergent structures in Open Source Software

地址:

http://arxiv.org/abs/1903.03375

作者:

María J. Palazzi, Jordi Cabot, Javier Luis Cánovas Izquierdo, Albert Solé-Ribalta, Javier Borge-Holthoefer

摘要:开发开源软件的开发从根本上取决于志愿者开发人员的参与和承诺。一些作品已经提出了增加新贡献者的入职和参与的策略,但对于这些不同的开发团队如何自我组织协同工作知之甚少。要理解这一点,必须考虑到,一方面,像 GitHub 这样的平台提供了一个几乎无限制的开发框架:任何数量的参与者都可以以分散,分布式,远程和异步方式加入。

然而,另一方面,必须采取某种等级制度和分工来满足人类的生理和认知限制,并达到某种程度的效率,这似乎是合理的。当项目被表示为开发者 - 文件二分网络时,后面这些特征(等级和分工)应转化为可识别的结构安排。在本文中,我们分析了一组来自 GitHub 的流行开源项目,重点放在三个关键属性上:嵌套性,模块性和嵌入式嵌套 - 这代表了贡献者之间异质性的出现,特定于开发人员的子组的出现文件的子组,以及前两个的混合。

这些分析表明,项目确实演变为内部组织的块。此外,这些区块的大小分布是有限的,将我们的结果与离线和在线环境中着名的 Dunbar 数字联系起来。我们的分析在生物认知约束,群体形成和在线工作环境之间建立了联系,为(在线)工作团队装配的未来研究开辟了丰富的场景。

多热紧凑型网络嵌入

原文标题:

Multi-Hot Compact Network Embedding

地址:

http://arxiv.org/abs/1903.03213

作者:

Chaozhuo Li, Senzhang Wang, Philip S. Yu, Zhoujun Li

摘要: 网络嵌入作为网络表示学习的有前途的方式,能够支持各种后续的网络挖掘和分析任务,并且最近吸引了越来越多的研究兴趣。传统方法为每个节点分配一个独立的连续向量,这将导致大型网络的巨大内存开销。在本文中,我们提出了一种新颖的多热紧凑嵌入策略,通过学习部分共享嵌入来有效降低内存成本。

洞察力是节点嵌入向量由几个基向量组成,这可以显著减少连续向量的数量,同时保持相似的数据表示能力。具体来说,我们提出了一个 MCNE 模型来学习来自预先学习的节点特征的紧凑嵌入。一个名为压缩器的新组件被集成到 MCNE 中,以应对流行的反向传播优化无法通过离散样本传播的挑战。我们进一步提出了一个端到端模型 MCNE _ {t} 来直接从输入网络学习紧凑嵌入。

根据经验,我们在三个真实网络数据集上评估所提出的模型,结果表明我们的建议可以节省大约90%的网络嵌入内存成本而不会显著降低性能。

社会学习对隐私

保护数据收集的影响

原文标题:

Impact of Social Learning on Privacy-Preserving Data Collection

地址:

http://arxiv.org/abs/1903.03165

作者:

Abdullah Basar Akbay, Weina Wang, Junshan Zhang

摘要: 我们研究一种模型,其中数据收集器通过支付机制从用户获得数据,旨在从引出的数据中学习基础状态。每个用户的私人信号代表她对国家的了解;通过社交互动,每个用户还可以学习她的社交朋友信号的嘈杂版本,这被称为“学习组信号”。由于社交学习,用户可以在私人信号之外获得更丰富的有关状态的信息。基于她的私人信号和学习组信号,每个用户做出战略决策,将数据的隐私保护版本报告给数据收集器。

我们开发了一个贝叶斯博弈理论框架来研究社会学习对用户数据报告策略的影响,并相应地设计数据收集器的支付机制。我们的研究结果表明,一般来说,贝叶斯 - 纳什均衡的理想数据报告策略可以采用对称随机响应(SR)策略或信息非披露(ND)策略的形式。具体地,每个用户将广义多数表决规则应用于她的嘈杂组信号以确定遵循哪种策略。此外,当用户播放 ND 策略时,她完全基于她的群组信号报告隐私保护数据,而不依赖于她的私人信号,这表明她的隐私成本为零。

我们强调,当用户播放 ND 策略时报告的数据仍然是关于基础状态的信息,因为它基于她学习的组信号。因此,数据收集器和用户都可以从社交学习中受益,这降低了隐私成本并有助于在给定的支付预算下改进状态估计。我们进一步得出了达到给定水平的州估计准确度所需的最低总支付额。

一般数据保护规则(GDPR)

对社会网络研究的影响分析

原文标题:

An Analysis of the Consequences of the General Data Protection Regulation (GDPR) on Social Network Research

地址:

http://arxiv.org/abs/1903.03196

作者:

Andreas Kotsios, Matteo Magnani, Luca Rossi, Irina Shklovski, Davide Vega

摘要: 本文探讨了在社会网络数据背景下通用数据保护法规(GDPR)中概述的原则。我们提供了符合 GDPR 标准的社会网络数据处理的实用指南,涵盖了数据收集,同意,匿名化和数据分析等方面,以及当监管所依据的一般原则被实例化时出现的问题的更广泛讨论。这个研究领域。

投入产出易感性带来的经济弹

性改善了对经济增长和复苏的预测

原文标题:

Economic resilience from input-output susceptibility improves predictions of economic growth and recovery

地址:

http://arxiv.org/abs/1903.03203

作者:

Peter Klimek, Sebastian Poledna, Stefan Thurner

摘要: 现代宏观经济理论无法预见最后的大衰退,也无法预测其持续时间延长和恢复率。它们基于经济衰退期间不存在的供需平衡。在这里,我们将弹性作为网络化生产系统的非平衡特性,并为输入 - 输出经济学开发线性响应理论。

通过在2000年至2014年间对来自43个国家的56个工业部门的数据进行校准,我们发现各个工业部门对经济冲击的敏感性在不同国家,部门和时间之间差异很大。我们表明,基于敏感性的预测将部门和国家特定的恢复考虑在内,远远超出标准的计量经济增长模型。我们的结果具有分析严谨性,经验可测性,并且足够灵活,可以解决与策略相关的情况。我们通过估算最近征收的关税对欧洲国家特定行业的美国进口(钢铁和铝)的影响来说明后者。

同质活动系统中由网

络拓扑调节的图灵斑图

原文标题:

Turing patterns mediated by network topology in homogeneous active systems

地址:

http://arxiv.org/abs/1903.03845

作者:

Sayat Mimar, Mariamo Mussa Juane, Juyong Park, Alberto P. Munuzuri, Gourab Ghoshal

摘要: 模式形成的机制 - 图灵不稳定性是一种原型 - 构成了生物,生态和化学系统中发生的一类重要的动力过程。最近,已经表明,图灵不稳定性可以在诸如复杂网络的离散媒体中诱导模式形成,从而开启了将其作为过多社会经济背景中的生成机制进行探索的有趣可能性。然而,就网络拓扑与其在诱导模式中的作用之间的精确连接而言,还有许多东西需要理解。

在这里,我们提出了在不同风格的网络拓扑上发生的两种物种反应扩散过程的一般数学描述。动力学方程是捕食者 - 食饵类,虽然传统上用于模拟物种种群,但也被用于模拟社会系统中对抗性思想之间的竞争。

我们证明,通过调整竞争物种的扩散或通过改变网络连通性,可以在任何网络拓扑中诱导图灵不稳定性。出现模式反映拓扑性质的程度由扩散系数与图拉普拉斯算子的特征向量的定域性质之间的复杂相互作用决定。我们发现具有较大程度波动的网络往往在初始扰动空间上具有稳定模式,而更均匀网络中的模式纯粹是随机的。

覆盖问题和超图的核渗流

原文标题:

Covering Problems and Core Percolations on Hypergraphs

地址:

http://arxiv.org/abs/1605.00897

作者:

Bruno Coelho Coutinho, Hai-Jun Zhou, Yang-Yu Liu

摘要: 覆盖问题是关于某个组合结构是否“覆盖”另一个组合结构的经典计算问题。例如,最小顶点覆盖问题旨在找到图中最小的顶点集,以便每个边入射到该集合中的至少一个顶点。有趣的是,图中最小顶点覆盖问题的计算复杂度与核心渗透问题密切相关,其中核心是贪婪叶子去除程序获得的特殊子图。在这里,通过将图中的贪婪叶子去除程序推广到超图,我们在图中引入了超图的核心渗流的两种推广,分别与超图的最小超边界覆盖问题和最小顶点覆盖问题有关。

我们为具有任意顶点度和超边界基数分布的随机超图提供这两个核心渗流的解析解。我们还在几个真实世界的超图中计算这两个核心,发现它们往往比它们的随机对应物小得多。这个结果表明,这些真实世界超图中的最小超边界覆盖问题和最小顶点覆盖问题实际上都可以在多项式时间内求解。最后,我们将图中的最小支配集问题映射到超图中的最小超边界覆盖问题。我们证明了我们的广义贪婪叶子去除程序在解决最小支配集问题时明显优于最先进的方法。

价格模型中最长的路径

原文标题:

Longest Path in the Price Model

地址:

http://arxiv.org/abs/1903.03667

作者:

Tim S. Evans, Lucille Calmon, Vaiva Vasiliauskaite

摘要: 价格模型是 Barabasi-Albert 模型的有向版本,它产生了一个不断增长的有向无环图。我们研究了以下两种方式之一将有向边添加到新顶点的变体:使用累积优势(优先附着)选择与其度数成比例的顶点,或使用随机连接,其中顶点随机均匀选择。在这样的网络中,最长路径被很好地定义,并且在某些情况下已知比最短路径更好地近似于测地线。

我们定义了一个反向贪婪路径,并在分析和数字上显示它与网络大小的对数进行尺度,系数由使用随机附件添加的边数给出。这是到任何给定顶点的最长路径长度的下限,并且我们在数字上显示最长路径也与网络大小的对数成比例但是具有较大的系数,该系数对于参数具有一定的弱依赖性模型。

Web缺少基础架构的重

要组成部分:开放的Web索引

原文标题:

The Web is missing an essential part of infrastructure: an Open Web Index

地址:

http://arxiv.org/abs/1903.03846

作者:

Dirk Lewandowski

摘要: 建立Web索引的建议将搜索引擎的基础设施部分 - 索引 - 与将构成无数搜索引擎基础的服务部分以及利用公共基础设施之上的Web数据的其他服务分开。

DeepTagRec:基于内容和用

的Stack Overflow标签推荐框架

原文标题:

DeepTagRec: A Content-cum-User based Tag Recommendation Framework for Stack Overflow

地址:

http://arxiv.org/abs/1903.03941

作者:

Suman Kalyan Maity, Abhishek Panigrahi, Sayan Ghosh, Arundhati Banerjee, Pawan Goyal, Animesh Mukherjee

摘要: 在本文中,我们开发了一个基于内容和用户的深度学习框架 DeepTagRec ,以在 Stack Overflow 上推荐适当的问题标签。建议的系统从问题标题和正文中学习内容表示。随后,来自用户和标签之间的异构关系的学习表示与用于最终标签预测的内容表示融合。在一个包含50万个问题帖子的大型数据集中, DeepTagRec 击败了所有基线;特别是,它明显优于表现最佳的基线 T agCombine ,其精确度分别达到60.8%和36.8%,精确度为3,召回率为10。与 TagCombine 相比, DeepTagRec 在精确k精度和top-k精度方面也分别实现了63%和33.14%的最大改进。

恢复中的 Redditors:挖

Reddit 文本调查药物成瘾转变

原文标题:

Redditors in Recovery: Text Mining Reddit to Investigate Transitions into Drug Addiction

地址:

http://arxiv.org/abs/1903.04081

作者:

John Lu, Sumati Sridhar, Ritika Pandey, Mohammad Al Hasan, George Mohler

摘要: 阿片类药物滥用率的上升和在线支持社区流行率的提高,强调了利用这些快速发展的在线资源利用数据挖掘技术更好地了解吸毒成瘾的必要性。在这项工作中,我们从在线论坛集合 Reddit 获取数据,以便使用用户自己的文本数据收集对毒品使用/滥用的深入了解。具体来说,使用用户帖子,我们训练了1)二元分类器,其预测从临时药物讨论论坛到药物回收论坛的过渡,以及2)输出这种过渡的可能性的 Cox 回归模型。

通过这样做,我们发现一篇文章中包含的精选药物和某些语言特征的发音可以帮助预测这些过渡。使用未经过滤的药物相关职位,我们的研究描述了与从娱乐性药物讨论到支持/恢复讨论的更高过渡率相关的药物,提供了对现代药物文化的洞察力,并提供了在对抗阿片类药物危机中具有潜在应用的工具。

迈向新的社会实验室:通过燃烧

人的社区参与进行搜索实验研究

原文标题:

Towards a new social laboratory: An experimental study of search through community participation at Burning Man

地址:

http://arxiv.org/abs/1903.04125

作者:

Ziv Epstein, Micah Epstein, Christian Almenar, Matt Groh, Niccolo Pescetelli, Esteban Moro, Nick Obradovich, Manuel Cebrian, Iyad Rahwan

摘要: 斯坦利·米尔格兰姆(Stanley Milgram)推广的“小世界现象”表明,来自社会网络的个人通过共同朋友的短途联系,可以利用他们的本地社交信息有效地遍历该网络。现有的社交搜索实验受到高消耗率的困扰,这禁止全面研究社交搜索。我们通过在位于美国内华达州黑岩沙漠的 Burning Man 进行一项小型世界实验来研究这个问题,该活动以其独特的社会系统和社区参与而闻名。

我们设计了位置跟踪船只,我们通过燃烧人来寻找一个特定的人。一路上,船只记录了个人信息和 GPS 数据。十五艘船中的两艘运往他们的指定人员,但是在“燃烧人”之后一个月。我们的研究结果表明,通过社区参与和强调文化实践以帮助社会实验的设计方法可以改善限制消耗率。

Web 上的图数据:扩

展主轴,不要重新发明轮子

原文标题:

Graph Data on the Web: extend the pivot, don’t reinvent the wheel

地址:

http://arxiv.org/abs/1903.04181

作者:

Fabien Gandon (Laboratoire I3S - SPARKS, WIMMICS, CRISAM), Franck Michel (WIMMICS), Olivier Corby (WIMMICS), Michel Buffa (WIMMICS), Andrea Tettamanzi (WIMMICS), Catherine Faron Zucker (WIMMICS), Elena Cabrio (WIMMICS), Serena Villata (WIMMICS)

摘要: 本文是来自 Wimmics 研究团队的集体立场文件,表达了我们对Web图数据技术未来如何发展的愿景,以确保生成和使用图数据的多种类型的应用程序之间的高度互操作性。 Wimmics 代表 Web-Instrumented 人机交互,社区和语义。我们是 INRIA Sophia Antipolis-M ‘e diterran ‘e e e e 和 I3S(CNRS和Universit ‘e C ^ o te d’Azur) 之间的联合研究团队。我们的挑战是在网络上桥接形式语义和社会语义。我们的研究领域是以图为导向的知识表示,推理和操作,以模拟和支持基于网络的认知社区中的参与者,行动和互动

我们的研究应用是支持和促进在线社区的互动和资源管理。在这篇立场文件中,我们强调需要扩展语义 Web 标准堆栈以满足和满足新的图数据需求,以及保持与现有建议兼容的重要性,特别是 RDF 堆栈,以避免模型的痛苦重复以下各节将不同工作方向的动机分组,并收集创建 RDF 2.0 工作组和 RDF 系列其他建议的理由。

公路交通数据:基于高D数

的宏观、微观和关键性分析,

刻画相关交通情景和交通建模

原文标题:

Highway traffic data: macroscopic, microscopic and criticality analysis for capturing relevant traffic scenarios and traffic modeling based on the highD data set

地址:

http://arxiv.org/abs/1903.04249

作者:

Friedrich Kruber, Jonas Wurst, Samarjit Chakraborty, Michael Botsch

摘要: 这项工作提供了基于高数据集的高速公路自然驾驶行为的综合分析。考虑两个主题领域。首先,提供了一些宏观和微观的交通统计数据。这些包括交通流量和交通密度,以及速度,加速度和距离分布。另外,检查彼此的依赖性并与相关工作进行比较。第二部分研究了临界度量的分布。

分析了碰撞时间,时间进展和第三种测量方法。这些措施也与其他指标相结合。分别讨论了这些措施达到临界水平的情景。结果也与相关工作进行了比较。这项工作的两个主要贡献可以陈述如下。首先,对关键性度量的分析可用于为罕见的交通场景找到合适的阈值。其次,这项工作中提供的统计数据也可用于交通建模,例如在模拟环境中。

地理本地微博应用中的标签使用

原文标题:

Hashtag Usage in a Geographically-Local Microblogging App

地址:

http://arxiv.org/abs/1903.04272

作者:

Helge Reelfs, Timon Mohaupt, Oliver Hohlfeld, Niklas Henckell

摘要: 本文首次研究了一种新的和根本不同类型的社交媒体中主题标签的使用和传播,即i)没有配置文件和ii)基于位置,仅显示附近发布的内容。我们的研究基于对仅限移动设备的 Jodel 微博应用程序的分析,该应用程序在几个欧洲国家和沙特阿拉伯拥有稳固的用户群。

所有帖子都是用户匿名用户(即没有显示的用户句柄),并且仅显示在用户位置附近(最多20公里)。从而形成了当地社区,并开启了信息如何在这些社区内部和之间传播的问题。我们通过将 Twitter 主题标签的既定指标应用于德国境内跨越三年的 Jodel 帖子的真实数据集来解决这个问题。我们发现 Jodel 中的 hashtags 的用法与 Twitter 不同;尽管在其设计中采用了本地通信,但 Jodel 主题标签主要用于全国范围。

整合的悖论——二维状态动力学

原文标题:

Paradox of integration—-Dynamics of two-dimensional status

地址:

http://arxiv.org/abs/1903.04291

作者:

K. Malarz, K. Kulakowski

摘要: 根据 Peter M. Blau [社会生活中的交换与权力, Wiley and Sons,p 。 [43],新组建的整合过程有一个矛盾的方面:最有吸引力的个人被拒绝,因为他们提出了拒绝的恐惧。通常,他们的解决方案是采用自我贬低策略,人为地提升对手的社会地位。在这里,我们介绍了二维空间状态,并且我们证明了通过这种设置,自我贬低策略可以有效地防止拒绝。提供了在社会规模中应用该策略的示例。

推特上的单词尺度律

原文标题:

Scaling in Words on Twitter

地址:

http://arxiv.org/abs/1903.04329

作者:

Eszter Bokányi, Dániel Kondor, Gábor Vattay

摘要: 尺度语言属性是理解文本中生成过程的有用工具。我们研究了来自美国大都市和微观统计区的城市化 Twitter 语料库中的尺度关系。我们观察到一个略微超线性的城市规模与城市人口相关的推文总量和在城市中创建的单词。

然后我们发现某个核心词汇遵循大量文本的尺度关系,但大多数词对城市大小敏感,表现出超线性或次线性城市尺度。对于这两种制度,我们可以根据单词的含义提供合理的解释。我们还表明 Zipf 定律和 Heaps 定律的参数在 Twitter 上与其他文本的参数不同,并且 Zipf 定律的指数随城市大小而变化。

使用联合药物治疗将疟疾

从地方性流行病变为根除状

态:基于主体的模型方法

原文标题:

Transition from endemic behavior to eradication of malaria due to combined drug therapies: an agent-model approach

地址:

http://arxiv.org/abs/1903.04353

作者:

João Sequeira, Jorge Louçã, António M. Mendes, Pedro G. Lind

摘要: 我们引入了一种基于主体的模型,描述了人类和蚊子的易感染 - 易感(SIS)系统,以预测现实生物条件下的疟疾流行病学情景。重点是从地方病行为转变为根除疟疾传播的过渡,这些药物疗法是由对抗配子体减少和蚊子寄生虫发育过程中选择性蚊子死亡率的综合药物治疗所致。我们的数学框架能够揭示表征每种药物疗法效果的参数的关键值。

此外,我们的研究结果提供了经验知识的定量证据:通过使用杀配子药物减少配子体减少症的干预措施,以及在蚊子寄生虫发育过程中伊维菌素的选择性作用,可以从长远来看积极促进疾病根除。在代理模型中,人 - 蚊子相互作用的主要特性被实施为参数,并且通过将模拟与在莫桑比克的 Chimoio 的地方性疟疾区域中收集的疟疾发病率的真实数据进行比较来验证模型。最后,我们根据目前预防疟疾的药物管理策略讨论我们的研究结果,这些策略可能会干扰人与蚊子的传播过程。

来源:网络科学研究速递

编辑:孟婕

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。

近期网络科学论文速递

多层网络可视化的现状 等12篇

维基百科数学家网络分析 等14篇

哪家银行最重要?看维基百科怎么说 等2篇

模拟交通网络和地区之间的相互作用 等5篇

复杂商业网络中的分层社区 等9篇

集体决策中的多样性与社会网络结构 等8篇

加入集智,一起复杂!


在线分工:开源软件中的涌现结构 | 网络科学论文速递18篇-集智俱乐部

集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

在线分工:开源软件中的涌现结构 | 网络科学论文速递18篇-集智俱乐部

让苹果砸得更猛烈些吧!

原文始发于微信公众号(集智俱乐部):集智