集智斑图最新论文栏目,关注复杂系统、网络科学、计算社会科学、统计物理等领域的前沿进展,每天即时更新相关顶刊论文,和最新arXiv预印本论文。



本文是对近期arXiv论文的汇总编译(by 彩云小译)。更多最新论文,请扫二维码获取。

核心速递

  • 在线活动与物理环境联合建模提高游客行为预测能力;

  • 利用投影密度图深度学习测量湍流气体的光谱指数;

  • 用于新浪微博用户抑郁检测的多任务深度学习方法;

  • Spotify 网络中的流行度和中心度: 特征向量中心度的关键跃迁;

  • 特征向量中心性排序的盲推断;

  • “我的朋友想谈论它,而我没有”——对社交平台上删除隐私的理解;

  • 识别虚假信息活动中的协调账户;

  • 通过社交媒体数据分析了解乳房植入物疾病;

  • 转换模型中的消失错误;

  • 协调容量扩张问题的潮流和输电损耗近似解;

  • 城市规模分布的分析有什么共同点?;

  • 用属性网络量化社会网络争论的一个框架: 有偏差的随机游走(BRW);

  • 从 Twitter 衍生出来的长期词频动力学已经被破坏: 一种定制的方法来检测和消除时间序列集合中的病理;





在线活动与物理环境联合建模

提高游客行为预测能力


原文标题:

Joint Modelling of Cyber Activities and Physical Context to Improve Prediction of Visitor Behaviors

地址:
https://arxiv.org/abs/2008.11400
作者:
Manpreet Kaur,Flora D. Salim,Yongli Ren,Jeffrey Chan,Martin Tomko,Mark Sanderson

摘要:本文利用匿名(opt in) Wi-Fi 关联和商场运营商记录的浏览记录,研究了大型室内购物中心用户的网络物理行为。我们的分析表明,许多用户在他们的网络活动和他们的物理环境之间表现出高度的相关性。为了找到这种相关性,我们提出了一种机制,用 DBPedia 概念中丰富的分类信息对物理空间进行语义标记,并计算上下文相似度来表示用户在商场上下文中的活动。我们论证了网络物理语境相似性在两种情况下的应用: 用户访问意图分类和未来位置预测。实验结果表明,利用语境相似性可以显著提高应用程序的准确性。



利用投影密度图深度学习

测量湍流气体的光谱指数


原文标题:

Measuring the spectral index of turbulent gas with deep learning from projected density maps

地址:
http://arxiv.org/abs/2008.11287
作者:
Piero Trevisan,Mario Pasquato,Alessandro Ballone,Michela Mapelli

摘要:湍流在分子云中的恒星形成过程中起着关键作用,影响着星团的原始属性。由于建立当今物体的模型取决于我们对其初始条件的理解,对湍流的更好约束可以导致银河考古学、星团动力学和恒星形成方面的意外收获。在观测上,约束湍流气体的光谱指数通常需要根据速度图计算光谱。这里我们建议,光谱指数的信息可以直接推断从柱密度图(可能获得的尘埃发射/吸收)通过深入学习。我们使用水文模拟程序 RAMSES,从大量的自适应网格细化湍流气体模拟生成模拟密度图。我们训练了一个美国有线电视新闻网的卷积神经网络来预测湍流指数,在验证和测试中优化超参数的拒绝集。我们采用的 CNN 模型在我们坚持集的预测上达到了0.024的均方差,超过了基本的频谱指数,范围从3到4.5。我们还通过将我们的模型应用于修改后的抵抗集图像,以及在不同分辨率下运行模拟获得的图像来执行鲁棒性测试。在模拟密度图上的这个初步结果鼓励了在真实数据上的进一步发展,在这些数据上需要考虑观测偏差和其他问题。



用于新浪微博用户抑郁

检测的多任务深度学习方法


原文标题:

A Multitask Deep Learning Approach for User Depression Detection on Sina Weibo

地址:
https://arxiv.org/abs/2008.11708
作者:
Yiding Wang,Zhenyi Wang,Chenghao Li,Yilin Zhang,Haizhou Wang

摘要:近年来,由于抑郁症的精神负担,危及生命安全的人数急剧增加。在线社交网络(OSN)为研究人员提供了检测抑郁症患者的另一个视角。然而,现有的基于机器学习的抑郁症检测研究仍然存在较低的分类性能,这表明它们在特征工程方面具有显著的改进潜力。在这篇论文中,我们在新浪微博上手工建立了一个大的数据集,即微博用户抑郁检测数据集(WU3D)。它包括超过20,000个正常用户和超过10,000个抑郁用户,这两者都是由专业人员手动标记和复查的。通过分析用户的文本、社会行为和上传的图片,归纳并提出了十个统计特征。同时,利用流行的预训练模型 XLNet 提取基于文本的词特征。在此基础上,提出了一种新的深层神经网络分类模型——融合网络(FN) ,并利用上述特征对融合网络进行训练。实验结果表明,在测试数据集上,FusionNet 获得了最高的 f1分数0.9772。与已有的研究相比,该方法对不平衡训练样本具有更好的分类性能和鲁棒性。我们的工作还提供了一种新的方法来检测抑郁症在其他 OSN 平台。



Spotify 网络中的流行度和中心度: 

特征向量中心度的关键跃迁


原文标题:

Popularity and Centrality in Spotify Networks: Critical transitions in eigenvector centrality

地址:
http://arxiv.org/abs/2008.11428
作者:
Tobin South,Matthew Roughan,Lewis Mitchell

摘要:数字音乐接入的现代时代增加了有关音乐消费和创作的数据的可用性,促进了对连接音乐的复杂网络的大规模分析。关于用户流媒体行为的数据,以及音乐协作网络对于新的数据驱动的推荐系统尤为重要。如果没有彻底的分析,这样的协作图可能会导致错误或误导性的结论。在这里,我们展示了来自在线音乐流媒体服务 Spotify 的艺术家们的一个新的合作网络,并展示了艺术家们的特征向量中心性的一个重要变化,因为低流行度的艺术家们被移除了。从古典艺术家到说唱艺术家,中心地位的重大变化表明了网络更深层次的结构特性。提出了一个社会群体中心性模型来模拟这种临界转移行为,并观察到主要特征向量之间的切换。这个模型提出了一个新的研究的影响,流行偏见的中心性和重要性是如何衡量,并提供了一个新的工具,检查这种缺陷的网络。基于不真实答案查询的谣言源检测。



特征向量中心性排序的盲推断


原文标题:

Blind Inference of Eigenvector Centrality Rankings

地址:
https://arxiv.org/abs/2008.11330
作者:
T. Mitchell Roddenberry,Santiago Segarra

摘要:我们考虑的问题是估计网络的特征向量中心性只从节点上的数据,没有信息的网络拓扑。利用图形过滤器的通用性来建立网络过程模型,节点上支持的数据被建模为一个图形信号,该信号通过应用于白噪声的图形过滤器的输出获得。我们试图简化中心性排序的下游任务,绕过网络拓扑/推理方法,而是直接从图信号推断图的中心性结构。为此,我们提出了两个简单的算法排序一组节点连接的一个未观测的边集。我们给出了这些算法的渐近和非渐近保证,揭示了决定手头任务复杂性的关键特征。最后,我们演示了所提出的算法在合成数据集和真实数据集上的行为。



“我的朋友想谈论它,而我没有”

——对社交平台上删除隐私的理解


原文标题:

“My Friend Wanted to Talk About It and I Didn’t”: Understanding Perceptions of Deletion Privacy in Social Platforms

地址:
https://arxiv.org/abs/2008.11317
作者:
Mohsen Minaei,Mainack Mondal,Aniket Kate

摘要:全球监管机构和用户对被遗忘权问题的关注和意识日益增强。为了解决这些隐私问题,社交平台提供了删除机制,让用户有机会删除他们的内容,在某些情况下,社交平台会自动删除他们。然而,这使得用户很容易受到敌人的攻击,这些敌人专门寻找具有破坏性的用户内容,并利用删除行为作为一个强烈的信号。本文通过对191名被试的用户调查,研究了他们之前的删除经历、对删除隐私的期望以及他们对现有删除机制的认识。我们发现超过80% 的用户至少删除了一篇社交媒体帖子,35% 的删除发生在发布一周之后。虽然与会者认为删除内容的主要原因是由于时间流逝而导致内容不相关,但大多数与会者认为删除内容表明被删除的内容包括对所有者有害的信息。重要的是,相对于社交圈中的任何其他个人,参与者更加关心他们的删除会被大型数据收集者(例如,第三方数据收集公司或政府)注意到。此外,三分之一的参与者认为他们可能受到这些大规模数据收集器的攻击。最后,与会者认为目前的删除机制不足以保护其删除的隐私,并为今后的删除机制提供指导。



识别虚假信息活动中的协调账户


原文标题:

Identifying Coordinated Accounts in Disinformation Campaigns

地址:
https://arxiv.org/abs/2008.11308
作者:
Karishma Sharma,Emilio Ferrara,Yan Liu

摘要:社交媒体上的虚假信息活动,包括从恶意账户到操纵公众舆论的协调活动,已经变得越来越普遍。越来越多的证据表明,社交媒体滥用影响了其他国家的政治和社会问题,引起了许多关切。查明和预防协调一致的运动对于从源头上处理虚假信息至关重要。现有的检测恶意活动的方法对协调行为作出严格的假设,例如恶意账户执行同步行动或共享被认为表明协调的功能。另一些则要求在运动中暴露一部分恶意账户,以检测其余部分。这些假设大大限制了现有方法的有效性。相比之下,我们提出了基于时间点过程的 AMDN (concentrated Mixture Density Network)来自动揭示账户活动和账户间交互中的协调群体行为。此外,我们利用学到的模型来理解和解释虚假信息活动中协调账户的行为。我们发现,协调账户之间的平均影响力最大,而这些账户并没有受到常规账户的太大影响。我们对俄罗斯干涉美国大选的 Twitter 数据进行了有效性评估。此外,我们从 Twitter 上收集的新型冠状病毒肺炎卫生组织的数据中发现了虚假信息活动,并提供了第一个证据和分析,证明在正在进行的流行病中存在着协调的虚假信息活动。



通过社交媒体数据

分析了解乳房植入物疾病


原文标题:

Understanding Breast Implant Illness via Social Media Data Analysis

地址:
https://arxiv.org/abs/2008.11238
作者:
Vishal Dey,Peter Krasniak,Minh Nguyen,Clara Lee,Xia Ning

摘要:背景: 在过去的20年里,隆胸手术越来越流行。人们越来越关注隆胸手术的风险。与此同时,一种被称为“乳房假体疾病”(BII)的媒体现象已经出现。目的: 利用社会媒体数据识别和总结 BII 的关键属性。材料和方法: 我们使用自然语言处理(NLP)和主题建模进行社会媒体数据分析,以更好地理解与 BII 相关的症状、体征等。我们使用临床文本分析和知识提取系统(cdes)提取与体征/症状、疾病/障碍和医疗程序相关的提及。提取的提及被映射到标准的医学概念。我们使用隐含狄利克雷分布语言(LDA)将映射的概念归纳到主题中。结果: 我们的分析确定了与乳房假体疾病高度相关的毒性、癌症和精神健康问题。我们还发现疼痛和其他疾病通常与乳房植入物疾病有关。讨论: 我们的分析表明,乳房植入物疾病可能导致严重的健康问题,如自身免疫性疾病,癌症,疼痛,疲劳。我们还发现硅胶植入物的毒性和心理健康问题是影响 BII 的一些潜在因素。本研究对进一步研究 BII 的症状和影响因素具有一定的指导意义。结论: 我们通过对社交媒体数据的分析,确定了诸如破裂、感染、疼痛和疲劳等被认为是公众中常见的自我报告问题。我们的分析还显示,癌症、自身免疫性疾病和心理健康问题正在引起人们的关注,尽管对隆胸手术的研究还很少。



转换模型中的消失错误


原文标题:

Disappearing errors in a conversion model

地址:
https://arxiv.org/abs/2008.11696
作者:
David P. Fan

摘要:同样的基本微分方程模型也适用于不同州之间人口成员随时间变化的转化。这种转换模式已经被应用于不同的环境,例如流行病学传染病,创新产品渗透理论的巴斯模式,以及公众舆论的意识形态动态模式。例如,模型的意识形态版本预测了公众舆论的变化,以响应可以追溯到不确定过去的劝说性信息。所有的信息都是用误差来度量的,本章讨论了信息度量中的误差如何随着时间的推移而消失,从而使预测的观点值逐渐不受过去度量误差的影响。利用形式统计、敏感度分析和自举方差计算讨论了预测的不确定性。这一章展示了对丰田汽车制造商的意识形态时间序列的动态预测,这些预测是根据两年半以来的每日 Twitter 得分计算出来的。在此期间,丰田突然遭遇了一连串的坏消息,该模型可以准确地预测随之而来的对丰田的好评和不利评价的下降。



协调容量扩张问题的

潮流和输电损耗近似解


原文标题:

Approximating Power Flow and Transmission Losses in Coordinated Capacity Expansion Problems

地址:
https://arxiv.org/abs/2008.11510
作者:
Fabian Neumann,Veit Hagenmeyer,Tom Brown

摘要:随着可再生能源的份额不断上升,以及需要适当评估输电、储能和部门一体化之间的权衡作为平衡选项,在能源系统模型和详细的电力流研究之间架起一座桥梁变得越来越重要,但在计算方面具有挑战性。W 比较近似的两个非线性现象,潮流和传输损失,在线性容量扩展问题,共同优化投资在发电,存储和传输基础设施。我们评估不同的流量表示,讨论在投资决策的差异,节点价格,偏差的优化流量和损失模拟交流电力流,以及计算性能。通过使用开放的欧洲电力系统模型 PyPSA-Eur,我们得到了详细的和可重复的结果,旨在促进选择一个合适的潮流模型。考虑到复杂度的差异,最优选择取决于应用程序、用户可用的计算资源以及考虑的空间细节级别。虽然通常使用的运输模型在进行计算时已经能够确定一个具有成本效益的系统的关键特征,但在高负荷条件下,由于缺乏物理网格表示,仍然存在缺陷。此外,不考虑输电损失,最优电网扩张高估了20% 。在线性化潮流方程中增加两个或三个切线的二次损耗凸松弛,并考虑网络加强时线阻抗的变化,足以在设计研究中充分表示潮流和损耗。我们证明,所获得的投资和调度决策足够物理,用于更详细的交流潮流非线性模拟,以便更好地评估其技术可行性。



城市规模分布的分析有什么共同点?


原文标题:

MetaMetaZipf. What do analyses of city size distributions have in common?

地址:
https://arxiv.org/abs/2008.11473
作者:
Clémentine Cottineau

摘要:在本文中,我对关于城市 Zipf 定律的实证文献进行了文本和语境分析。在以前公开的元分析材料的基础上,我收集了66篇以英语发表的科学文章的全文和参考书目,并构建了他们使用的术语以及引用的参考文献和学科的相似网络。我用这些网络作为解释变量,在66篇文章中报道了 Zipf 估计分布的相似性网络模型。我发现,作者经常使用的词语的接近程度与他们报告 Zipf 估计值的相似值和分散程度的倾向正相关。文章的参考框架也起到了一定作用,因为引用类似参考的文章倾向于报告类似的 Zipf 估计的平均值。作为对以前的元分析的补充,目前的方法阐明了科学文本和背景动员报告城市规模分布。它允许识别语料库中的空白和可能被忽略的文章。



用属性网络

量化社会网络争论的一个框架: 

有偏差的随机游走(BRW)


原文标题:

A Framework for Quantifying Controversy of Social Network Debates Using Attributed Networks: Biased Random Walk (BRW)

地址:
https://arxiv.org/abs/2008.11473
作者:
Hanif Emamgholizadeh,Milad Noorizadeh,Saman Tajbakhsh,Mahdieh Hashminezhad,Farzaneh Nasr Esfahani

摘要:在过去的几年里,所有的社会,都变得更加两极化,特别是在网络社交网络和媒体出现之后。事实上,随着新媒体的普及,社会阶层两端之间的差距将进一步扩大。在这种情况下,格差社会已经成为社会主义者和计算机科学专家日益关注的问题,因为在线社交网络可以通过给极端主义火上浇油而对社会产生不利影响。为了计算社交网络中的争议程度,以减少相互矛盾的观点之间的争议,人们进行了几种类型的研究,例如,将一方的观点暴露给另一方的成员。大多数量化社交网络争议的尝试都把社交网络看作是最基本的形式,没有任何属性。虽然这些研究为不同的社会网络提供了无平台的算法,但是它们没有考虑到用户提供的大量有用信息(节点属性)。为了克服这一缺点,我们提出了一个在不同属性的网络中使用的框架。我们推导了一些偏向随机游动(BRW) ,以求出它们从起始点到初始未知终点的路径,它们关于起始节点的初始能量和路径上节点的能量损失。利用节点2vec 提取网络的结构属性,并与现有算法进行比较,验证了算法的正确性。然后,提取用户的一些内容属性,并分析它们对算法结果的影响。BRW 与另一种最先进的有争议的测量算法相比较。然后,在波斯语中,它在不同程度的争议中的变化被认为是它在不同情况下如何工作的展示。



从 Twitter 衍生出来的

长期词频动力学已经被破坏: 

一种定制的方法来

检测和消除时间序列集合中的病理


原文标题:

Long-term word frequency dynamics derived from Twitter are corrupted: A bespoke approach to detecting and removing pathologies in ensembles of time series

地址:
https://arxiv.org/abs/2008.11473
作者:
P. S. Dodds,J. R. Minot,M. V. Arnold,T. Alshaabi,J. L. Adams,D. R. Dewhurst,A. J. Reagan,C. M. Danforth

摘要:保持长期数据收集的完整性是一项基本的科学实践。随着一个领域的发展,这个领域的测量仪器和数据存储系统也会发展,因为它们被发明、改进和淘汰。对于由不透明的社会技术系统生成的数据流,这些系统可能会有片段性和未知的内部规则变化,检测和解释历史数据集的变化需要警惕性和创造性的分析。在这里,我们展示了大约10% 的 Twitter 每日使用频率时间序列,这些时间序列收集了10年来大约10,000个常用词的实时数据,这些数据实际上来自带有损坏语言标签的 tweets。我们描述了我们如何发现有问题的信号,同时比较在不同的时间框架的词语使用。我们定位 Twitter 开启或关闭不同语言识别算法的时间点,以及数据格式可能发生变化的时间点。然后,我们展示如何创建一个统计数据,用于识别和删除病理时间序列中的单词。虽然我们从时间序列的集合中去除‘坏’时间序列的结果过程是特殊的,但是导致其结构的方法可能是可推广的。

来源:集智斑图
编辑:王建萍



复杂系统前沿文献交流群


如果你经常关注复杂系统和跨学科研究进展,是网络论文速递栏目的长期读者,欢迎扫描集智小助手,向我们反馈你的需求。欢迎提出宝贵意见,我们一起来探索追踪前沿进展的更好方式。


参与论文速递用户调研后,我们将邀请你加入集智的科研文献交流群



近期网络科学论文速递


以貌取人: 面部知觉对社交网络中心性的影响 | 网络科学论文速递18篇

88国证据:新冠肺炎大流行的严重程度、封锁制度和人口流动 | 网络科学论文速递18篇

社交网络越复杂故事越好讲:对中国历史和小说文本的实证研究 | 网络科学论文速递12篇

新冠疫情期间新浪微博上的注意力动力学 | 网络科学论文速递17篇

超级传播者和高变异传染病 | 网络科学论文速递19篇

加入集智,一起复杂!





集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ 


搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!


👇点击“阅读原文”,了解更多最新arxiv论文