社交网络机器人的词汇分析| 网络科学论文速递9篇

2018-12-19 3,846 0

核心速递

Twitter上自动帐户的词汇分析;
“女-金属-白和男-衣服-短裤”：结合社交，时间和图像信号来理解Pinterest时尚板的流行;
寿命差异 – 全球趋势，政策影响和计算方法;
学习意大利参议院的政治DNA;
计算大图的可导航性分数;
基于深度学习模型的社会网络中的网络欺凌检测：可重复性研究;
标准化的Gutenberg项目语料库，用于自然语言和定量语言学的统计分析;
内生认知派系化：一种网络认识论方法;
使用软更新最大限度地减少信息年龄;

Twitter上自动帐户的词汇分析

原文标题：

Lexical analysis of automated accounts on Twitter

地址：

http://arxiv.org/abs/1812.07947

作者：

Isa Inuwa-Dutse, Bello Shehu Bello, Ioannis Korkontzelos

摘要： 近年来，社交机器人一直在使用越来越复杂，具有挑战性的检测策略。虽然已经提出了许多方法和特征，但是社交机器人像人类一样逃避检测和交互，使得难以将真实的人类账户与机器人账户区分开来。对于检测系统，已经使用了更广泛类别的帐户简档，推文内容，网络和时间模式下的各种特征。推文内容功能的使用仅限于对URL，主题标签，名称实体和情绪等基本术语的分析。

鉴于一组没有明显模式的推文内容，我们可以区分社交机器人产生的内容与人类的内容吗？我们的目标是通过使用大量不同数据集来分析各个帐户生成的推文的词汇丰富性来回答这个问题。我们的结果显示了两个类别在词汇多样性，词汇复杂性和表情符号分布方面的明显差距。我们发现，提出的词法功能可以显著提高对两种帐户类型进行分类的性能。这些功能对于培训标准机器学习分类器以有效检测社交机器人账户非常有用。免费提供新数据集以供进一步探索。

“女-金属-白和男-衣服-短裤”：结合社交，

时间和图像信号来理解Pinterest时尚板的流行

原文标题：

“Woman-Metal-White vs Man-Dress-Shorts”: Combining Social, Temporal and Image Signals to Understand Popularity of Pinterest Fashion Boards

地址：

http://arxiv.org/abs/1812.07759

作者：

Suman Kalyan Maity, Anshit Chaudhari, Animesh Mukherjee

摘要： Pinterest是一个受欢迎的照片共享网站。时尚是这个平台上最受欢迎的内容生成类别之一。大多数流行的时尚品牌和设计师在Pinterest上使用展示板来展示他们的产品。然而，热门的时尚展示板的特征并不为人所知。这些特征可用于预测新生展示板的流行度。此外，新形成的展示板可以以类似于热门时尚展示板的方式组织其内容以获得增强的流行度。这些时尚展示板上的哪些属性决定了它们的受欢这些属性，可以系统地量化吗？

在本文中，我们展示了社交，时间和图像信号如何共同帮助描绘流行的时尚展示板。特别是，我们研究了引用的共享/借用行为以及时尚展示板的图像内容特征。我们使用社交和时间信号分析共享行为，并提出六个新颖而简单的指标：原创性得分，保留系数，生产系数，复制间时间，共享持续时间和速度系数。我们通过提取嵌入图像中的时尚，颜色和性别术语，进一步研究基于图像的内容属性。我们观察到流行（高度关注或高度排名的专家）和不受欢迎（较少遵循）的展示板之间的显著差异。

然后，我们使用这些特征来早期预测展示的普及，并实现0.874与低RMSE值的高相关性。我们的主要观察结果是，除了使用各种颜色，性别和时尚术语之外，喜欢和重复保留系数是展示板受欢迎程度最具区分性的因素。

寿命差异 – 全球趋势，

政策影响和计算方法

原文标题：

Lifespan differential – global trends, policy impact and computational methods

地址：

http://arxiv.org/abs/1812.07839

作者：

Toni Cosic, Roko Misetic, Hrvoje Stefancic

摘要： 长寿问题长期以来被认为是人口学中的关键概念之一。本文讨论的长寿的一个特殊方面是女性和男性人口的平均生命持续时间的差异，称为寿命差异。利用人类死亡率数据库中的数据，从1960年到2014年，研究了全球许多国家的寿命差异动态。一个有趣的现象是，研究区间开始时生命差异的增长趋势不会持续，即数据集中的绝大多数国家都显示出停滞甚至下降。

在一些案例研究中，证明了生命动态与诸如战争，解散或国家一体化或政策措施等破坏性事件的强烈关联。最后，介绍了一种从人口亚群的死亡率指标计算人口寿命差异的新方法，并将其应用于1990年至2000年以色列的寿命差异分析。

学习意大利参议院的政治DNA

原文标题：

Learning Political DNA in the Italian Senate

地址：

http://arxiv.org/abs/1812.07940

作者：

Antonio Longo, Chiara Ravazzi, Fabrizio Dabbene, Giuseppe Calafiore

摘要： 受到控制界对社会科学的兴趣日益增加以及对意见形成和信仰系统的研究的启发，在本文中，我们讨论了利用投票数据来推断个人对竞争意识形态群体的潜在亲和力的问题。特别是，我们在第十七届立法机关期间挖掘了意大利参议院的关键投票记录，以便根据选择最相关法案的简约特征提取方法，向参议员提取关于参议员亲密程度的隐藏信息。将投票数据建模为随机变量混合的结果并使用稀疏学习技术，我们将问题转化为概率框架并得出信息论度量，我们将其称为政治数据 – 分析亲和力（政治DNA）。

本文讨论了这种新的亲和力测量的优点。投票数据的数值分析结果揭示了意大利参议院政治人物之间的潜在关系。

计算大图的可导航性分数

原文标题：

Computing a Score of Navigability in Large Graphs

地址：

http://arxiv.org/abs/1812.08012

作者：

Pasquale De Meo, Mark Levene, Fabrizio Messina, Alessandro Provetti

摘要： Travers和Milgram的开创性实验证明了所谓的“六度分离”现象，通过这种现象，世界上任何一个人都可以通过短链的社会关系联系任意的，迄今为止未知的个体。尽管有大量的实证和理论研究来解释Travers-Milgram实验，但一些基本问题仍然存在：为什么有些人比其他人更有可能发现朋友之间的朋友通信链？我们能否根据他们发现短链的能力对个人进行排名？

为了回答这些问题，我们将最初在Web分析环境中定义的潜在收益概念扩展到社会网络，我们定义了一个新的索引，称为“导航性得分”，它根据如何对网络中的节点进行排名它们的位置有助于发现连接到网络中任意目标节点的短链。我们定义了两种潜在增益变体，称为几何和指数势增益，并提供快速算法来计算它们。我们的理论和实验分析证明，即使在大型实际图中，几何和指数增益的计算也是可以承受的。

基于深度学习模型

的社会网络中的网络欺凌

检测：可重复性研究

原文标题：

Cyberbullying Detection in Social Networks Using Deep Learning Based Models; A Reproducibility Study

地址：

http://arxiv.org/abs/1812.08046

作者：

Maral Dadvar, Kai Eckert

摘要： 网络欺凌是一种令人不安的在线不当行为，其后果令人不安。它以不同的形式出现，在大多数社会网络中，它采用文本格式。自动检测此类事件需要智能系统。大多数现有研究已经用传统的机器学习模型解决了这个问题，并且这些研究中的大多数开发模型一次可适应单个社会网络。在最近的研究中，基于深度学习的模型已经在检测网络欺凌事件中找到了自己的方式，声称它们可以克服传统模型的局限性，并提高检测性能。

在本文中，我们调查了最近这方面的文献的发现。我们成功地复制了这些文献的发现，并使用相同的数据集验证了他们的发现，即作者使用的维基百科，Twitter和Formspring。然后，我们通过在新的YouTube数据集上应用开发的方法（~4k用户约54,000个帖子）扩展了我们的工作，并调查了新社交媒体平台中模型的性能。我们还将在一个平台上训练的模型的性能转移并评估到另一个平台。我们的研究结果表明，基于深度学习的模型优于以前应用于同一YouTube数据集的机器学习模型。我们相信基于深度学习的模型还可以从集成其他信息源以及查看用户在社会网络中的个人资料信息的影响中受益。

标准化的Gutenberg项目

语料库，用于自然语言

和定量语言学的统计分析

原文标题：

A standardized Project Gutenberg corpus for statistical analysis of natural language and quantitative linguistics

地址：

http://arxiv.org/abs/1812.08092

作者：

Martin Gerlach, Francesc Font-Clos

摘要： 使用Project Gutenberg（PG）作为文本语料库在语言统计分析中已经非常流行超过25年。然而，与其他具有相似重要性的主要语言数据集相比，迄今为止还没有任何双方同意的完整版PG。实际上，到目前为止，大多数PG研究要么只考虑少量手工选择的书籍，导致潜在的有偏见的子集，要么采用截然不同的预处理策略（通常在细节不足的情况下指定），这引起了对已发表结果的再现性的担忧。

为了解决这些缺点，我们在此提出标准化项目古腾堡语料库（SPGC），这是一种开放式科学方法，用于完整的PG数据的策划版本，包含超过50,000本书和超过3美元的10 ^ 9 字令牌。使用不同来源的注释元数据，我们不仅提供了PG内容的广泛表征，还展示了不同的例子，突出了SPGC在调查跨时间，主题和作者的语言变异性方面的潜力。

我们详细发布了我们的方法，下载和处理数据的代码，以及在3个不同粒度级别（原始文本，单词标记的时间序列和单词计数）上获得的语料库本身。通过这种方式，我们提供了一个可重复的，预处理的，全尺寸的Project Gutenberg版本，作为语料库语言学，自然语言处理和信息检索的新科学资源。

内生认知派系化：

一种网络认识论方法

原文标题：

Endogenous Epistemic Factionalization: A Network Epistemology Approach

地址：

http://arxiv.org/abs/1812.08131

作者：

James Owen Weatherall, Cailin O’Connor

摘要： 为什么对一个主题持不同意见的人也倾向于对其他主题持不同意见？在本文中，我们引入网络认识论模型来探索这种“认识派”现象。代理人试图通过测试世界和分享收集的证据来发现有关多种信仰的真相。但是，代理人倾向于不信任那些没有相似信仰的人所共有的证据。这种不信任导致了具有多种高度相关的极化信念的代理派系的内生出现。

使用软更新最大

限度地减少信息年龄

原文标题：

Minimizing Age of Information with Soft Updates

地址：

http://arxiv.org/abs/1812.08148

作者：

Melih Bastopcu, Sennur Ulukus

摘要： 我们考虑信息更新系统，其中信息提供者和信息接收者随着时间的推移参与更新过程。不同于现有的文献，其中更新是可数的（硬）并立即生效或延迟生效，但在两种情况下瞬间，此处更新立即生效，但随着时间的推移逐渐增加。我们硬币这个设置 soft 更新。当更新过程开始时，年龄减小直到软更新周期结束。我们约束信息提供者和信息接收者满足的次数（更新周期的数量）和更新周期的总持续时间。

在更新期间我们考虑两种减少年龄的模型：在第一种模型中，年龄下降率与当前年龄成正比，而在第二种模型中，年龄下降率是恒定的。第一个模型导致指数衰减年龄，第二个模型导致线性衰减年龄。在这两种情况下，我们通过确定更新的最佳开始时间和最佳持续时间来确定最佳更新方案，这取决于更新周期数和总更新持续时间的限制。