Vent:最大的线上文本、情感、社交关系数据集 | 网络科学论文速递16篇-集智俱乐部

心速递

  • 大规模分享情绪:Vent数据集;

  • 层降级会触发多路网络中的结构突变;

  • BoostNet:社交机器人的自举检测,以及危地马拉的案例研究;

  • 用于测试网络结构假设的谱拒绝方法;

  • 使用量子硬件的符号图中的多社区检测;

  • 比特币闪电网络的拓扑分析;

  • 国际农作物贸易网络:冲击和级联的影响;

  • 效率聚类模式和加密货币市场的成熟时代;

  • 打击暴力极端主义:一种数学模型;

  • 韩国国家研发绩效评估体系的系统动力学分析;

  • 基于内容的个性化微博推荐的比较分析[实验与分析];

  • Instagram社会网络上品牌影响力配对的机器学习技术;

  • 基于局部边度的加权标签传播算法;

  • 州际战争的频率和严重程度

  • 超越均匀反向采样:一种用于预防错误信息的混合采样技术;

  • 推特上基于位置、职业和语义的社会经济地位推理;

大规模分享情绪:Vent数据集

原文标题:

Sharing emotions at scale: The Vent dataset

地址:

http://arxiv.org/abs/1901.04856

作者:

Nikolaos Lykousas, Costantinos Patsakis, Andreas Kaltenbrunner, Vicenç Gómez

摘要:社交媒体的不断和越来越多的使用使得人类思想,观点和日常行动的表达能够以前所未有的规模公开。我们提供了Vent数据集,这是迄今为止最大的文本,情感和社交关系的注释数据集。它包含近百万用户及其社交关系的超过3300万个帖子。每个帖子都有相关的情感。有63种不同的情绪,以63种“情绪类别”组织,形成了两级影响分类。我们最初的统计分析描述了Vent平台中的全球活动模式,揭示了大异质性以及关于不同情绪使用的某些显著规律。

我们专注于情绪的聚合使用,时间活动和用户的社会网络,并概述了基于用户活动推断情感网络的可能方法。我们还分析文本并描述Vent的情感景观,在情感类别和正/负效价方面找到与现有(小规模)注释语料库的协议。最后,我们讨论可以从这个独特的数据集中解决的可能的研究问题。

层降级会触发多路

网络中的结构突变

原文标题:

Layer degradation triggers an abrupt structural transition in multiplex networks

地址:

http://arxiv.org/abs/1901.04523

作者:

Emanuele Cozzo, Guilherme Ferraz de Arruda, Francisco A. Rodrigues, Yamir Moreno

摘要: 从理论和实践的角度来看,网络稳健性是网络科学的核心要点。在本文中,我们表明层的退化,理解为链路权重的连续或离散丢失,触发了图代数连通性突然变化所揭示的结构转换。与传统的单层网络不同,多路复用网络分为两个阶段,一个阶段保护系统免受某些层中的链路故障的影响,另一个阶段中所有系统都检测到故障发生在一个单层中。

我们还给出了层内链路重量的精确临界值,在该重叠处,连续层退化发生了转变,并且它与层之间耦合的值有关。这种关系使我们能够揭示在层下退化时观察到的转变与在层之间的耦合变化下观察到的转变之间的联系。

BoostNet:社交机器人的自举

检测,以及危地马拉的案例研究

原文标题:

BoostNet: Bootstrapping detection of socialbots, and a case study from Guatemala

地址:

http://arxiv.org/abs/1901.04542

作者:

E.I. Velazquez Richards, E. Gallagher, P. Suárez-Serrato

摘要: 我们提出了一种在给出最小输入的情况下重建社交机器人网络的方法。然后我们使用来自47,000个社会网络帐户的Botometer评分的核密度估计来查找自动帐户集群,发现超过5,000个社交机器人。这种统计和数据驱动的方法允许推断社会机器人检测的阈值,如我们在危地马拉提出的案例研究所示。

用于测试网络结

假设的谱拒绝方法

原文标题:

Spectral rejection for testing hypotheses of structure in networks

地址:

http://arxiv.org/abs/1901.04747

作者:

Mark D. Humphries, Javier A. Caballero, Mat Evans, Silvia Maggi, Abhinav Singh

摘要: 在现实世界网络中发现结构需要合适的空模型来定义缺少有意义的结构。在这里,我们引入了一种用于在网络和节点级别测试结构假设的谱方法,通过使用生成模型来估计指定空模型下的特征值分布。在合成网络上,这种谱拒绝方法可以干净地检测随机和社区结构之间的转换,恢复社区的数量和成员资格,并消除噪声节点。

在实际网络中,与传统的社区检测方法形成鲜明对比的是,谱抑制发现了很大一部分噪声节点或没有偏离零模型。在所有分析中,我们发现零模型的选择可以强烈地改变关于网络结构存在的结论。因此,我们的谱抑制方法是揭示现实世界网络中结构或缺乏结构的有前景的方法。

使用量子硬件的符

图中的多社区检测

原文标题:

Multi-Community Detection in Signed Graphs Using Quantum Hardware

地址:

http://arxiv.org/abs/1901.04873

作者:

Ehsan Zahedinejad, Daniel Crawford, Clemens Adolphs, Jaspreet S. Oberoi

摘要: 签名图表是社会网络建模的主要工具。它们可以使用带符号的边来表示个体(即节点)之间的关系。在签名图中查找社区在许多领域都非常重要,例如,有针对性的广告。我们提出了一种算法来检测有符号图中的多个社区。我们的方法将多社区检测问题简化为二次二元无约束优化问题,并使用最先进的量子或经典优化器来找到每个个体对特定社区的最佳分配。

比特币闪电网络的拓扑分析

原文标题:

Topological Analysis of Bitcoin’s Lightning Network

地址:

http://arxiv.org/abs/1901.04972

作者:

István András Seres, László Gulyás, Dániel A. Nagy, Péter Burcsi

摘要: 比特币的闪电网络(LN)是比特币的可扩展性解决方案,允许以可忽略的费用发行交易,并立即大规模结算。为了使用LN,需要将资金锁定在比特币区块链(第1层)上的支付渠道中,以便随后在LN(第2层)中使用。 LN由形成支付渠道网络的许多支付渠道组成。

LN的承诺是,相对较少的支付渠道已经使任何人能够在整个网络中高效,安全和私密地路由支付。在本文中,我们量化了LN的结构特性,并认为LN的当前拓扑特性可以得到改善,以提高LN的安全性,使其能够发挥其真正的潜力。

国际农作物贸易

网络:冲击和级联的影响

原文标题:

International crop trade networks: The impact of shocks and cascades

地址:

http://arxiv.org/abs/1901.05872

作者:

Rebekka Burkholz, Frank Schweitzer

摘要:分析了21个国家176个国家的粮农组织现有数据,我们发现玉米,大米,大豆和小麦的国际贸易复杂性增加。越来越多的国家作为生产者或中间商发挥作用,无论是贸易还是食品加工。因此,我们发现贸易网络更容易因外部冲击而导致故障级联。在我们的模型中,各国通过实施出口限制来弥补需求不足。为了捕捉这些,我们为不同的作物和年份构建了高阶贸易依赖网络。这些网络揭示了各国之间隐藏的依赖关系,并允许讨论政策含义。

效率聚类模式和加密

货币市场的成熟时代

原文标题:

Clustering patterns in efficiency and the coming-of-age of the cryptocurrency market

地址:

http://arxiv.org/abs/1901.04967

作者:

Higor Y. D. Sigaki, Matjaz Perc, Haroldo V. Ribeiro

摘要:有效市场假说对金融交易和市场稳定具有深远影响。因此,加密货币是否具有信息效率已经成为最近激烈调查的主题。在这里,我们使用置换熵和统计复杂度而不是价格日志回报的滑动时间窗来量化超过四百种加密货币的动态效率。我们认为加密货币在时间窗口内是有效的,因为这两种复杂性度量在统计上与在随机混洗数据上获得的值无法区分。我们发现,在我们的研究中,37%的加密货币在80%的时间内保持有效,而20%的加密货币在不到20%的时间内具有信息效率。我们的结果还表明,效率与加密货币的市值无关。

随着时间的推移对信息效率的动态分析揭示了聚类模式,其中具有相似时间模式的不同加密货币形成四个聚类,而且,每个组中的年轻货币似乎准备跟随其“长者”的趋势。因此,加密货币市场已经显示出对有效市场假设的显著遵守,尽管数据还显示数字货币的成熟在这方面仍然正在进行中。

打击暴力极端

主义:一种数学模型

原文标题:

Countering Violent Extremism: A mathematical model

地址:

http://arxiv.org/abs/1901.05440

作者:

Manuele Santoprete

摘要:激演化是人们采用日益极端的政治,社会或宗教意识形态的过程。当激演化导致暴力时,激进思想成为对国家安全的威胁。预防和去激进计划是用于打击暴力极端主义的一系列战略的一部分,这些战略统称为打击暴力极端主义(CVE)。预防计划试图阻止激演化进程的发生和占据。去激演化方案与暴力极端分子合作,并试图改变他们的极端主义信仰和暴力行为,目的是使他们重新融入社会。

在本文中,我们介绍了一个简单的隔室模型,适用于描述预防和去激进程序。预防措施通过包括疫苗接种隔室来建模,而去激活过程通过包括治疗隔室来建模。我们计算基本复制数 R _0 。对于 R _0 <1 ,系统具有一个全局渐近稳定的均衡。对于 R _0> 1 ,系统还有一个额外的“地方性均衡”。 Lyapunov函数用于表明,对于 R _0> 1 ,地方病均衡是全局渐近稳定的。

韩国国家研发绩效评估

体系的系统动力学分析

原文标题:

A System Dynamics Analysis of National R&D Performance Measurement System in Korea

地址:

http://arxiv.org/abs/1901.05447

作者:

Taekho You, Woo-Sung Jung

摘要:同行评审是一项有用且强大的绩效评估流程。在韩国,它需要提高研发绩效的质量,但文献计量评估和缺乏同行会产生相反的效果。我们使用系统动力学来描述韩国研发性能测量系统以及提高性能质量的方法。为了满足所需的研发性能质量,需要提高评估的公平性和质量。

由于研发项目和桑皮过程的专业化,同行资源的规模减少,这对于获得公平和质量至关重要。此外,缩短评估期对研发绩效质量的影响,导致工作量增加,限制长期和创新的研发项目,降低评估质量。以前的评估政策起到了微观控制研发活动的作用,但是增加同行池的规模和改变评估期会改变评估的质量和公平性。

基于内容的个性化微博

推荐的比较分析[实验与分析]

原文标题:

Comparative Analysis of Content-based Personalized Microblog Recommendations [Experiments and Analysis]

地址:

http://arxiv.org/abs/1901.05497

作者:

Efi Karra Taniskidou, George Papadakis, George Giannakopoulos, Manolis Koubarakis

摘要:微博平台构成了实时通信和信息共享的流行手段。它们涉及如此大量的用户生成的内容,其用户遭受信息泛滥。为了解决这个问题,已经提出了许多推荐方法来组织用户根据她的兴趣接收的帖子。基于内容的方法通常为每个单独的用户构建基于文本的模型以捕获她的品味,然后根据他们与该模型的相似性在她的时间线中对帖子进行排名。尽管基于内容的方法引起了人们对数据管理社区的极大兴趣,但尚未对影响其绩效的主要因素进行全面评估。

它们是:(i)将非结构化文本转换为阐明其特征的结构化表示的表示模型,(ii)组成用户模型的微博帖子的来源,以及(iii)用户的发布活动的类型。为了弥补这一差距,我们系统地检查了9个最先进的表示模型的性能,结合13个表示源和3个用户类型,来自Twitter的大型真实数据集,包括60个用户。

我们还考虑了各种表示模型的223种合理配置,以评估其内部参数的稳健性。为了便于解释我们的实验结果,我们引入了一种新的表示模型分类。我们的分析提供了对确定微博中基于内容的推荐的性能的主要因素的性能和功能的新见解。

Instagram社会网络上品牌

影响力配对的机器学习技术

原文标题:

Machine Learning Techniques for Brand-Influencer Matchmaking on the Instagram Social Network

地址:

http://arxiv.org/abs/1901.05949

作者:

Taylor Sweet, Austin Rothwell, Xuan Luo

摘要:社交媒体革命改变了品牌与消费者互动的方式。越来越多的公司没有将广告预算花在州际广告牌上,而是选择与所谓的互联网“影响者”合作 - 这些人在网络平台上获得了忠实的追随者,因为他们发布了高质量的内容。不幸的是,对于小品牌来说,找到合适的影响者并不总是那么容易:一个与他们的企业形象保持一致但尚未普及到不负担的地步的人。

在本文中,我们寻求开发一个品牌影响力配对系统,利用现代机器学习技术的力量和灵活性。结果是一种算法,可以根据他们发布的内容的相似性来预测最富有成效的品牌影响者合作关系。

基于局部边度的

加权标签传播算法

原文标题:

Weighted Label Propagation Algorithm based on Local Edge Betweenness

地址:

http://arxiv.org/abs/1901.05359

作者:

Hamid Shahrivari Joghan, Alireza Bagheri, Meysam Azad

摘要:复杂网络中,尤其是社会网络中,网络可以被划分为不相交的分区,内部边的数量(相同分区内的顶点之间的边)与外边的数量(不同分区的两个顶点之间的边)之间的比率是高。通常,这些分区称为社区。检测这些社区有助于数据科学家从图表中提取有意义的信息并对其进行分析。在过去的几十年中,已经提出了各种算法来检测图中的社区,并且每个算法都从不同的角度检查了这个问题。

然而,这些算法中的大多数具有显著的时间复杂度和昂贵的计算,这使得它们不适合于检测具有数百万个边和节点的大图中的社区。在本文中,我们尝试通过使用边中介度量来改进标签传播算法,以便能够以接近线性的时间复杂度以可接受的准确度识别现实世界和人工网络中的不同社区。此外,该算法可以检测加权图中的社区。经验实验表明,该算法的准确性和速度是可以接受的;另外,所提出的算法是可扩展的。

州际战争的频率和严重程度

原文标题:

On the frequency and severity of interstate wars

地址:

http://arxiv.org/abs/1901.05086

作者:

Aaron Clauset

摘要:Lewis Fry Richardson认为,各种致命冲突的频率和严重程度,从杀人到州际战争以及其间的一切,遵循普遍的统计模式:它们的频率遵循简单的泊松到达过程,其严重性遵循简单的幂律分布。虽然他在20世纪中叶的方法和数据既不严谨也不全面,但他对暴力冲突的见解已经持续存在。

在本章中,我们使用现代统计方法和数据,证明Richardson的原始主张在很大程度上是正确的,但有一些注意事项。这些事实严重限制了我们对产生个别战争和和平时期的潜在机制的理解,并阐明了对冲突趋势的持续辩论。

超越均匀反向采样:一种用于

预防错误信息的混合采样技术

原文标题:

Beyond Uniform Reverse Sampling: A Hybrid Sampling Technique for Misinformation Prevention

地址:

http://arxiv.org/abs/1901.05149

作者:

Gunagmo Tong, Ding-Zhu Du

摘要:在线错误信息被认为是全球最大的风险之一,因为它可能导致严重后果,如经济损失和公众恐慌。错误信息预防问题旨在产生具有适当种子节点的正级联,以便与错误信息竞争。

在本文中,我们研究了突出的独立级联模型下的错误信息预防问题。由于计算影响中的#P-硬度,核心问题是设计有效的采样方法来估计功能值。本文的主要贡献是一种新颖的抽样方法。与平均处理所有节点并均匀地对节点进行采样的经典反向采样技术不同,所提出的方法采用混合采样过程,其能够将高权重附加到易于被错误信息影响的用户。

因此,新的采样方法在生成用于计算正级联的种子节点的有效样本方面更加强大。基于新的混合样本技术,我们设计了一种算法,提供(1-1 / e- epsilon) - 近似值。我们通过实验评估所提出的方法在广泛的数据集上,并表明它明显优于最先进的解决方案。

推特上基于位置、职业和

语义的社会经济地位推理

原文标题:

Location, Occupation, and Semantics based Socioeconomic Status Inference on Twitter

地址:

http://arxiv.org/abs/1901.05389

作者:

Jacobo Levy Abitbol, Márton Karsai, Eric Fleury

摘要:人们的社会经济地位取决于个人特征和环境变量的组合,因此从在线行为数据中推断出来是一项艰巨的任务。众所周知,通信,栖息地,职业或社会网络中的用户语义等属性都是此功能的决定性预测因子。

在本文中,我们提出了三种不同的数据收集和组合方法来首先估计,然后从他们的在线语义推断法国Twitter用户的社会经济状况。我们的方法基于开放式人口普查数据,爬行专业档案,以及关于生活环境的遥感,专家注释信息。我们的推理模型达到了与早期结果类似的性能,其优势在于依赖广泛可用的数据集,并提供了一个可推广的框架来估计大量Twitter用户的社会经济状况。这些结果可能有助于对社会分层和不平等的科学讨论,并可能推动一些应用。

来源:网络科学研究速递

编辑:孟婕

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。

近期网络科学论文速递

选择随机网络中的重要节点的有效采样 等11篇

通过社会网络表征学习预测扩散到达概率 等14篇

用于符号网络聚类和半监督聚类MBO方案 等7篇

计算机病毒在时变网络上的传播 等4篇

一种接近ER随机图小世界网络模型 等11篇

两组简单公式估计不规则边界的分形维数 等8篇

加入集智,一起复杂!

拉票时刻

《环球科学》杂志和旗下公众号“科研圈”评出了“2018 明星学术公众号”入围榜单,同时也拉开了TOP 10评选的大幕。

集智俱乐部”顺利TOP21大名单,如果您喜欢集智俱乐部的内容,请长按识别下方二维码,或点击“阅读原文”,为集智投上宝贵一票,谢谢!

Vent:最大的线上文本、情感、社交关系数据集 | 网络科学论文速递16篇-集智俱乐部

无需注册、无需登录、无需任何个人信息

扫码即可为集智投票(倒数第二排)

笔芯❤️


Vent:最大的线上文本、情感、社交关系数据集 | 网络科学论文速递16篇-集智俱乐部

集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

Vent:最大的线上文本、情感、社交关系数据集 | 网络科学论文速递16篇-集智俱乐部

让苹果砸得更猛烈些吧!

点击左下方 |阅读原文|,为集智投票!

原文始发于微信公众号(集智俱乐部):集智