如何自动化地评估科技新闻的质量 | 网络科学论文速递15篇-集智俱乐部

心速递

  • SciLens :利用社交媒体和科学文献指标评估科技新闻文章的质量;

  • 社会网络的迭代局部模型;

  • 从路径聚合中学习图中的边属性;

  • 基于子集选择的方法寻找复杂网络的重要结构;

  • 从 Twitter 语料库中提取本地化信息用于洪涝预防;

  • 资本成本的区域差异对具有雄心勃勃的二氧化碳减排目标的电力系统优化设计的影响;

  • 意见形成的统计物理学:它是否属于该领域?;

  • 什么使验证用户与众不同? Twitter 上验证用户的认识、分析和预测;

  • QuickStop :最快错误信息检测的马尔科夫最优停止方法;

  • 劳动力流动网络的摩擦失业;

  • 间作农业可持续蚜虫防治的数学模型;

  • 用社交媒体表征当地对移民的态度;

  • 智能高速公路流密度关系变异性的实证分析;

  • “坚持在那里”:使用词汇和视觉分析识别具有移情反应的帖子;

  • 学习图聚类的分辨率参数;

SciLens:利用社交媒体和科学

文献指标评估科技新闻文章质量

原文标题:

SciLens: Evaluating the Quality of Scientific News Articles Using Social Media and Scientific Literature Indicators

地址:

http://arxiv.org/abs/1903.05538

作者:

Panayiotis Smeros, Carlos Castillo, Karl Aberer

摘要:本文描述,开发和验证了 SciLens,一种评估科学新闻文章质量的方法。我们工作的出发点是结构化方法,定义了一系列用于手动评估新闻的质量方面。基于这些方面,我们描述了一系列新闻质量指标。根据我们的实验,与无法获得这些指标的非专家相比,这些指标有助于非专家更准确地评估科学新闻文章的质量。

此外,SciLens 还可用于为文章生成完全自动化的质量得分,与非专家进行的人工评估相比,专家评估员更愿意。 SciLens 的主要元素之一是关注文章的内容和背景,其中上下文由(1)文章对科学文献的明确和隐含参考,以及(2)社交媒体中引用文章的反应提供。我们表明,两个上下文元素都可以成为确定文章质量的重要信息来源。 SciLens 的验证通过专家和非专家注释的组合完成,证明了其对科学新闻的半自动和自动质量评估的有效性。

社会网络的迭代局部模型

原文标题:

The Iterated Local Model for Social Networks

地址:

http://arxiv.org/abs/1903.04523

作者:

Anthony Bonato, Huda Chuangpishit, Sean English, Bill Kay, Erin Meger

摘要: 诸如在 Facebook 和 Twitter 中的在线社会网络通常从网络中的代理之间的友谊关系的角度进行研究。然而,对抗关系在社会网络的结构和功能中也发挥着重要作用,但往往是隐藏的。结构平衡理论预测了社会网络的潜在生成机制,结构平衡理论假设三位代理人更喜欢传递,朋友的朋友更可能是朋友,或反传递,对手的对手成为朋友。先前提出的迭代局部传递(ILT)和迭代局部反传递(ILAT)模型分别将传递性和反传递性作为演化机制。

这些模型产生了具有社会网络的许多可观察属性的图,例如低直径,高聚类和致密化。我们提出了一种新的生成模型,称为迭代局部模型(ILM),用于随时间推移合成传递和反传递三元组的社会网络。在 ILM 中,我们给出了一个可数无限的二进制序列作为输入,该序列决定了我们是应用传递步还是反传递步。得到的模型显示出在 ILT 和 ILAT 模型中观察到的复杂网络的许多特性。

特别地,对于任何输入二进制序列,我们表明渐近模型生成有限图,其密集化,聚类系数远离0,直径最多为3,并且表现出不良的谱扩展。我们还对 ILM 图的诱导子图的色数,控制数,哈密尔顿性和同构类型进行了全面的分析。

从路径聚合中学习图中的边属性

原文标题:

Learning Edge Properties in Graphs from Path Aggregations

地址:

http://arxiv.org/abs/1903.04613

作者:

Rakshit Agrawal, Luca de Alfaro

摘要: 图边及其标签可以表示基本重要性的信息,例如网页之间的链接,用户之间的友谊,用户给予其他用户或项目的评级等等。我们介绍了 LEAP,一种可训练的通用框架,用于根据图的局部结构,拓扑和标签预测边的存在和属性。 LEAP 框架基于连接图中节点的路径的探索和机器学习聚合。

我们提供了几种通过训练路径聚合器来执行聚合阶段的方法,并且我们通过将其应用于社会网络中的链接和用户评级的预测来证明框架的灵活性和通用性。我们在两个问题上验证 LEAP 框架:链路预测和用户评级预测。在八个大型数据集中,其中包括 arXiv 协作网络,酵母蛋白质 - 蛋白质相互作用以及美国航空公司路由网络,我们表明 LEAP 的链路预测性能至少与当前最先进的方法一样好,例如作为海豹突击队和 WLNM。

接下来,我们考虑预测其他用户的用户评级的问题:这个问题被称为加权符号网络(WSN)中的边权重预测问题。在比特币网络和维基百科 RfA 上,我们表明 LEAP 的表现始终优于基于公平与良好的回归模型,将训练边的数量在10%到90%之间变化。这些例子表明,LEAP 虽然具有通用性,但可以与特别精心设计的方法的性能相匹配或最佳,以解决非常具体的边预测问题。

基于子集选择的方法

寻找复杂网络的重要结构

原文标题:

A subset selection based approach to finding important structure of complex networks

地址:

http://arxiv.org/abs/1903.04649

作者:

Richa Tripathi, Amit Reza

摘要: 大多数现实世界的网络,如互联网,协作网络,大脑网络,引用网络,电力线和航空网络都非常庞大,要研究它们的结构和动态,通常需要使用大型连接(邻接)矩阵。然而,几乎总是如此,一些或有时大多数节点及其连接对于网络功能不是非常关键,或者网络对于某些节点的故障及其与网络其余部分的连接是健壮的。在目前的工作中,我们的目标是提取复杂网络的尺寸减小表示,使得新表示具有最相关的网络节点和连接并保持其谱特性。

为此,我们使用子集选择(SS)过程。通常,SS 方法用于从其最具信息性的列中检索矩阵中的最大信息。检索的矩阵(通常称为子集)具有具有最小线性相关性的原始矩阵的列。我们将 SS 过程的应用呈现给现实世界网络的许多邻接矩阵和模型网络类型以提取它们的子集。由于其小尺寸的子集可以在分析大型复杂网络的谱特性中起关键作用,其中分析全邻接矩阵的空间和时间复杂度太昂贵。从所获得的子集构造的邻接矩阵具有较小的尺寸并且代表最重要的网络结构。我们观察到几乎是原始网络一半大小的子网络具有比原始网络更好的信息流效率。

从 Twitter 语料库中提

取本地化信息用于洪涝预防

原文标题:

Extracting localized information from a Twitter corpus for flood prevention

地址:

http://arxiv.org/abs/1903.04748

作者:

Etienne Brangbour, Pierrick Bruneau, Stéphane Marchand-Maillet, Renaud Hostache, Patrick Matgen, Marco Chini, Thomas Tamisier

摘要: 在本文中,我们讨论了与热带风暴哈维相关的语料库的集合,以及从空间和主题角度的分析。从空间角度来看,我们的目标是首先估计收集的语料库中的地理信息的粒度和可靠性。从主题角度来看,我们讨论了 Twitter 帖子的表示,以及处理最初未标记的推文语料库的策略。

资本成本的区域差异对具

有雄心勃勃的二氧化碳减排目

标的电力系统优化设计的影响

原文标题:

Implications of regional differences in costs for capital on the optimal design of power systems with ambitious CO2 reduction targets

地址:

http://arxiv.org/abs/1903.04768

作者:

Bruno U. Schyska, Alexander Kies

摘要: 为了减少电力部门的温室气体排放,需要将高比例的可再生能源集成到现有系统中。这将需要大量投资。已经表明,这些投资所需的资本成本在欧洲地区之间分布不均。它们显示出明显的南北和西 - 东分歧,近年来没有显示出明显缩小的迹象。

然而,调查欧洲大陆电力系统的电力系统研究通常假设资本成本均匀。本文的目的是研究资本成本的区域差异如何影响这些研究在最优电力系统设计方面的结果。我们的分析基于电力系统优化,欧洲资本成本不均匀。我们发现,假设资本的同质成本导致对发电能力的非最佳投资。整个欧洲的电力支出不平等减少,而整个系统成本的变化很小。此外,发现资本的不均匀成本有利于整体风力发电部署,而太阳能则受到影响。

意见形成的统计物

理学:它是否属于该领域?

原文标题:

Statistical Physics Of Opinion Formation: is it a SPOOF?

地址:

http://arxiv.org/abs/1903.04786

作者:

Arkadiusz Jędrzejewski, Katarzyna Sznajd-Weron

摘要: 我们基于非线性 q -voter 模型提出了关于在意见形成统计物理学(SPOOF)中提出的问题和方法的简短回顾。我们描述了由物理学家开发的意见形成模型与社会心理学中已知的社会反应理论模型之间的关系。我们提请注意社会心理学家和物理学家感兴趣的问题。

我们展示了直接受社会心理学启发的研究实例,如:“独立与反社会”或“人格与情境”。我们总结了已经获得的结果,并指出了其他可以做的事情,也与 SPOOF 中的其他模型有关。最后,我们展示了几种在 SPOOF 中有用的分析方法,例如有效力和潜力的概念, Landau 的相变方法,或平均场和对近似。

什么使验证用户

与众不同?Twitter

验证用户的认识、分析和预测

原文标题:

What sets Verified Users apart? Insights, Analysis and Prediction of Verified Users on Twitter

地址:

http://arxiv.org/abs/1903.04879

作者:

Indraneil Paul, Abhinav Khattar, Shaan Chopra, Ponnurangam Kumaraguru, Manish Gupta

摘要: 社会网络和发布平台,例如 Twitter ,支持秘密专有验证过程的概念,用于他们认为值得在平台范围内公共利益的句柄。与先前的重要工作一致,这表明拥有这样的地位象征着平台观众眼中的可信度提升,在公众人物和品牌中明显令人垂涎。不太明显的是验证过程的内部运作和被验证的内容。

这种缺乏透明度,加上 Twitter 在2017年通过将上述地位扩展到政治极端主义者而获得的抨击,支持 Twitter 公开承认这一过程以及所代表的地位需要重新思考。考虑到这一点,我们试图解开用户个人资料的各个方面,这些方面可能会导致或排除验证。本文的目的有两个方面:首先,我们测试是否可以从配置文件元数据和内容功能中辨别句柄的验证状态。

其次,我们解开了对手柄验证状态影响最大的特征。我们收集了一个数据集,其中包含所有231,235名经过验证的英语用户的个人资料元数据(截至2018年7月),一个对照样本,包括175,930名未经过验证的英语用户以及一年收集期间的4.94亿条推文。我们提出的模型能够可靠地识别验证状态(曲线下面积 AUC> 99%)。我们表明公共列表成员数量,推文中的中性情绪和权威语言风格是验证状态最相关的预测因子。据我们所知,这项工作代表了首次尝试在 Twitter 上识别和分类有价值的验证用户。

QuickStop:最快错误信

息检测的马尔科夫最优停止方法

原文标题:

QuickStop: A Markov Optimal Stopping Approach for Quickest Misinformation Detection

地址:

http://arxiv.org/abs/1903.04887

作者:

Honghao Wei, Xiaohan Kang, Weina Wang, Lei Ying

摘要: 本文结合数据驱动和模型驱动的方法进行实时错误信息检测。我们的算法名为 QuickStop,是一种基于从标记数据获得的概率信息传播模型的最优停止算法。该算法包括用于学习概率信息传播模型的离线机器学习算法和用于检测错误信息的在线最优停止算法。在线检测算法具有低计算和存储器复杂性。我们使用实际数据集进行的数值评估表明,QuickStop 在准确度和检测时间(检测所需的观察数量)方面优于现有的错误信息检测算法。我们对合成数据的评估进一步表明, QuickStop 对(离线)学习错误很有用。

劳动力流动网络的摩擦失业

原文标题:

Frictional Unemployment on Labor Flow Networks

地址:

http://arxiv.org/abs/1903.04954

作者:

Robert L. Axtell, Omar A. Guerrero, Eduardo López

摘要: 我们为总体匹配函数开发了另一种理论,即工人通过企业网络寻找工作:劳动力流动网络。两家公司之间缺乏优势表明,由于高度摩擦,他们之间无法实现劳动力流动。在均衡状态下,企业的招聘行为通过网络相关联,产生高度分解的当地失业。

因此,聚合以非平凡的方式取决于网络的拓扑。该理论为贝弗里奇曲线,工资分散和雇主规模溢价提供了新的微观基础。我们将我们的模型应用于雇主 - 雇员匹配的记录,并发现具有帕累托分布式连接的网络拓扑导致在高劳动力供给弹性下的总失业率发生不成比例的大变化。

间作农业可持续

蚜虫防治的数学模型

原文标题:

Mathematical modeling for sustainable aphid control in agriculture via intercropping

地址:

http://arxiv.org/abs/1903.05043

作者:

Alfonso Allen-Perkins, Ernesto Estrada

摘要: 农业对有害生物的损失是全球变暖情景中的一项重要挑战。间作是一种替代农业实践,可在不使用化学杀虫剂的情况下促进害虫防治。在这里,我们开发了一个数学模型来研究间作农业领域的流行病传播和控制,作为农业可持续的病虫害管理工具。

该模型结合了农业领域中传播病毒的蚜虫的运动,间作田间植物的空间分布,以及流行病学易感染 - 去除(SIR)模型中“陷阱作物”的存在。使用该模型,我们研究了没有和与陷阱作物相关的几种间作安排,并找到了一种新的间作安排,相对于常用的间作系统,它可以显著改善农业领域的病虫害管理。

用社交媒体表征

当地对移民的态度

原文标题:

Characterization of Local Attitudes Toward Immigration Using Social Media

地址:

http://arxiv.org/abs/1903.05072

作者:

Yerka Freire, Eduardo Graells-Garrido

摘要: 迁移是一种全球性现象,可能在人群中产生不同的反应。态度不同于那些支持当地人和外国人之间的多元文化和交流,以及对移民的蔑视和仇恨。由于反移民态度往往在暴力和歧视行为中得到体现,因此必须确定表征这些态度的因素。然而,这样做是昂贵且不切实际的,因为传统方法需要付出巨大努力来收集数据。

在本文中,我们建议利用 Twitter 来描述当地对移民的态度,并对智利进行了案例研究,近年来移民人口急剧增加。使用半监督主题建模,我们将 49K 用户定位在从有利于移民到反对移民的范围内。我们从两个方面对谱的两个方面进行了表征:与每种态度相关的情感和词汇类别,以及讨论网络结构。我们发现讨论主要是海地移民;讨论的趋势和极性存在时间趋势;并且网络上的分类行为在态度上有所不同。这些见解可以为政策制定者提供有关移民方面的感受的信息,对政策沟通和改善群体间关系的干预措施的设计具有潜在影响。

智能高速公路流密度

关系变异性的实证分析

原文标题:

Empirical analysis of the variability in the flow-density relationship for smart motorways

地址:

http://arxiv.org/abs/1903.05112

作者:

Kieran Kalair, Colm Connaughton

摘要: 基本图是交通流量和交通密度之间假定的函数关系。在实践中,这种关系是嘈杂的并且表现出显著的统计变异性。在智能高速公路上,这种可变性通过基本图未捕获的可变速度限制而增加。为了研究这种可变性,考虑密度和流量的联合概率分布函数( pdf )是合适的。我们使用来自伦敦 M25 的64个部分的74天数据,对流量和密度之间关系的变化进行了实证研究。

目标是确定流量密度关系中的多少变化是由变速限制产生的,并评估基本图的特定功能形式是否系统偏好。根据经验,流量和密度的联合 pdf 是双峰的,说明交通流量通常在高密度或低密度体系中发现,但很少在两者之间。我们发现高密度区域受到变速限制的强烈影响,而低密度区域则不然。基本图的 Daganzo-Newell (三角形)模型系统地最适合数据。

但是,最佳参数随位置而变化。这些参数的聚类分析表明三种不同类型的流密度关系适用于 M25 的不同部分。这些聚类在流动破坏的频率和严重性方面具有自然的解释。事故率还取决于集群类型,表明可能链接到流量密度关系之外的交通流量的其他属性。

“坚持在那里”:使用词汇和视

觉分析识别具有移情反应的帖子

原文标题:

“Hang in There”: Lexical and Visual Analysis to Identify Posts Warranting Empathetic Responses

地址:

http://arxiv.org/abs/1903.05210

作者:

Mimansa Jaiswal, Sairam Tabibu, Erik Cambria

摘要: 在过去几年中,社交媒体已经成为一个平台,人们在这个平台上表达和分享关于虐待,暴力和心理健康问题的个人事件。需要查明这些帖子并了解预期的响应类型。为此,我们理解个人故事在不同社交媒体网站上发布的关于滥用或心理健康主题的不同帖子的情绪。在本文中,我们提出了一种由手工制作的功能支持的方法,以判断该帖子是否需要移情反应。该模型在各种网页和相应评论的帖子上进行训练,包括字幕和图像。我们能够在标记需要移情反应的帖子中获得80%的准确率。

学习图聚类的分辨率参数

原文标题:

Learning Resolution Parameters for Graph Clustering

地址:

http://arxiv.org/abs/1903.05246

作者:

Nate Veldt, David F. Gleich, Anthony Wirth

摘要: 在图中找到连接良好的节点的集群是基于图的数据分析中广泛研究的问题。由于其应用众多,已经提出并分析了大量不同的图聚类目标函数和算法。为了帮助从业者确定在不同应用中使用的最佳聚类方法,我们提出了自动学习如何设置聚类分辨率参数的新技术。这些参数控制通过优化广义目标函数形成的社区的大小和结构。

我们首先形式化参数适应度函数的概念,该函数测量固定输入聚类近似如何很好地解决特定分辨率参数值的广义聚类目标。在适合两个关键图聚类应用的合理假设下,可以使用类似二分的方法有效地最小化这样的参数适应度函数,从而产生与示例聚类很好地匹配的分辨率参数。我们将框架视为一种单次超参数调整,因为我们只需一个例子即可学习一个好的分辨率参数。

我们的一般方法可用于学习局部和全局图聚类目标的分辨率参数。我们在实际数据的几个实验中展示了它的实用性,其中有助于从给定的示例聚类中学习分辨率参数。

来源:网络科学研究速递

编辑:孟婕

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。

近期网络科学论文速递

在线分工:开源软件中的涌现结构 等18篇

增长图的生成图卷积网络等15篇

分析多层网络中的模体等5篇

多层网络可视化的现状 等12篇

维基百科数学家网络分析 等14篇

加入集智,一起复杂!


如何自动化地评估科技新闻的质量 | 网络科学论文速递15篇-集智俱乐部

集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

如何自动化地评估科技新闻的质量 | 网络科学论文速递15篇-集智俱乐部

让苹果砸得更猛烈些吧!

原文始发于微信公众号(集智俱乐部):集智