提高推荐系统长期性能的新方法 | 网络科学论文速递16篇-集智俱乐部

心速递

  • 提高推荐系统长期性能的新方法;

  • PyTorch-BigGraph :大规模图嵌入系统;

  • 在大数据平台中使用机器学习和社会网络分析进行电信客户流失预测;

  • 开放式演化与 Web 服务新颖机制;

  • 复杂网络中混合意见动态的平均复制者投票模型;

  • 网络社会系统:建模、推理和优化设计;

  • 基于扩散的推荐系统的可预测性;

  • Heider 平衡和镜像自我;

  • 利用基于 CDR 的社会网络预测复杂的用户行为;

  • 具有不一致性的同质对称阈值模型:独立性与反一致性;

  • 推特议员:英国公民与议员之间的数字互动;

  • 多路网络的扩散行为;

  • 公平核心-边缘图的谱密度;

  • 社交媒体中人类价值观和对疫苗接种的态度;

  • NewsCompare :一种用于检测国家新闻影响的新颖应用程序;

  • 一词多义、简洁性与语言的频率;

提高推荐系统长期性能的新方法

原文标题:

Enhancing the long-term performance of recommender system

地址:

http://arxiv.org/abs/1904.00672

作者:

Leyang Xue, Peng Zhang, An Zeng

摘要:推荐系统是在线商业系统中至关重要的工具,为用户提供个性化的项目推荐。到目前为止,已经制定了许多推荐算法以在单步推荐中进一步改善推荐性能,而忽略了长期推荐性能。

在本文中,我们提出了一种称为调整推荐列表(ARL)的方法,以提高长期推荐准确性。为了观察长期的准确性,我们开发了一个网络演化模型,以模拟推荐系统与用户行为之间的相互作用。结果表明,不仅可以显著提高长期推荐的准确性,而且在线系统中项目的多样性保持健康。值得注意的是,ARL 的最佳参数 n存在于长期推荐中,表明在保持项目的多样性和用户的偏好之间存在权衡以最大化长期推荐准确性。最后,我们证实了最优参数n在演化网络中是稳定的,这揭示了 ARL 方法的鲁棒性。

PyTorch-BigGraph:

大规模图嵌入系统

原文标题:

PyTorch-BigGraph: A Large-scale Graph Embedding System

地址:

http://arxiv.org/abs/1903.12287

作者:

Adam Lerer, Ledell Wu, Jiajun Shen, Timothee Lacroix, Luca Wehrstedt, Abhijit Bose, Alex Peysakhovich

摘要:图嵌入方法从图中产生无监督的节点特征,然后可以用于各种机器学习任务。现代图,特别是在工业应用中,包含数十亿个节点和数万亿个边,这超出了现有嵌入系统的能力。

我们提出了 PyTorch-BigGraph(PBG),这是一种嵌入系统,它对传统的多关系嵌入系统进行了多次修改,使其能够扩展到具有数十亿个节点和数万亿边的图。PBG 使用图分区来在单个机器或分布式环境中训练任意大的嵌入。我们在通用基准测试中展示了与现有嵌入系统相当的性能,同时允许在多台机器上扩展到任意大的图和并行化。我们在几个大型社会网络图以及完整的 Freebase 数据集上训练和评估嵌入,其中包含超过1亿个节点和20亿个边。

在大数据平台中使用

机器学习和社会网络分

析进行电信客户流失预测

原文标题:

Customer churn prediction in telecom using machine learning and social network analysis in big data platform

地址:

http://arxiv.org/abs/1904.00690

作者:

Abdelrahim Kasem Ahmad, Assef Jafar, Kadan Aljoumaa

摘要: 客户流失是一个主要问题,也是大公司最重要的问题之一。由于直接影响公司的收入,特别是在电信领域,公司正在寻求开发预测潜在客户流失的方法。因此,找到增加客户流失的因素对于采取必要措施来减少这种流失非常重要。我们工作的主要贡献是开发流失预测模型,帮助电信运营商预测最有可能遭受客户流失的客户。

该工作开发的模型在大数据平台上使用机器学习技术,并构建了一种新的功能工程和选择方式。为了测量模型的性能,采用曲线下面积(AUC)标准测量,获得的AUC 值为93.3%。另一个主要贡献是通过提取社会网络分析(SNA)功能在预测模型中使用客户社会网络。 SNA 的使用将模型的性能从 AUC 标准的84%提高到93.3%。通过改造由叙利亚电信公司提供的大型原始数据创建的大型数据集,通过Spark环境准备和测试该模型。

该数据集包含9个月内所有客户的信息,并用于在叙利亚电台培训,测试和评估系统。该模型试验了四种算法:决策树,随机森林,梯度提升机器树“GBM”和极限梯度提升“XGBOOST”。但是,通过应用 XGBOOST 算法获得了最好的结果。该算法用于该流失预测模型中的分类

开放式演化与

Web服务新颖性机制

原文标题:

Open-ended Evolution and a Mechanism of Novelties in Web Services

地址:

http://arxiv.org/abs/1903.12178

作者:

Takashi Ikegami, Yasuhiro Hashimoto, Mizuki Oka

摘要: 类似于自然界中的生态系统,网络服务形成了一个由许多标签及其相关媒体组成的人工生态系统,例如人类用户创建的照片,电影和网页。关于生物生态系统,我们将标签视为物种,将人类视为隐藏的环境资源。我们随后分析了关于新标签的自组织的 Web 服务,特别是社交标签系统的演变。新标签组合的演变被分析为开放式演化(OEE)指数。标签含义由关联标签的类型计算;暂时存在变化意义的标签。我们认为这样的标签是 OEE 的例子。

复杂网络中混合意见动

态的平均复制者投票模型

原文标题:

Averager-copier-voter models for hybrid opinion dynamics in complex networks

地址:

http://arxiv.org/abs/1903.12329

作者:

Mengran Xue, Sandip Roy

摘要: 介绍了复杂多智能体网络中观点动态的混合模型,其中一些连续值代理平均邻居的意见来更新自己的,而其他离散值代理使用随机复制和投票协议。对模型进行了统计和图论分析,并且只要网络矩阵是遍历的,就会显示出共识。此外,就网络图和不同类型的代理的分布而言,表征了共识所需的时间。

网络社会系统

建模、推理和优化设计

原文标题:

Cyber-Social Systems: Modeling, Inference, and Optimal Design

地址:

http://arxiv.org/abs/1903.12371

作者:

Mohammadreza Doostmohammadian, Hamid R. Rabiee, Usman A. Khan

摘要: 本文将网络社会系统建模为监控社会网络中个人状态的代理人的网络网络。每个人的状态由社交节点表示,个人之间的交互由社交链接表示。在网络网络中,每个节点代表一个代理,链接代表代理之间的信息共享。代理人观察社会状态并进行分布式推理。

在这个方向上,这项工作的贡献有三个:(i)提出了一种新的分布式推理协议,它不对基础社会系统的等级做出假设。这很重要,因为文献中的大多数协议仅适用于全秩系统。 (ii)开发了一种新的代理分类,其中显示了每种类型的网络连接要求不同。这对于找到最小数量的观测和网络网络的最小连通性作为下一个贡献尤为重要。 (iii)解决了具有分布式可观察性的网络 - 网络约束的成本优化设计。这个问题被细分为传感成本优化和网络成本优化,其中两者都声称是NP难的。我们为某些类型的社会网络解决了这两个问题,并找到了多项式阶解。

基于扩散的推荐系统可预测性

原文标题:

Predictability of diffusion-based recommender systems

地址:

http://arxiv.org/abs/1903.12388

作者:

Peng Zhang, Leyang Xue, An Zeng

摘要: 基于网络扩散的推荐方法已被证明在推荐准确性和多样性方面表现良好。现在,已经进行了许多扩展以进一步改进这些方法的性能。但是,基于扩散的算法在多大程度上可以预测项目仍然缺乏理解。在这里,我们主要提出一种量化基于扩散的算法的可预测性的方法。因此,我们对 Movielens 和 Netflix 数据集进行了实验。结果表明,通过优化密度网络上的资源分配方式,仍然可以实现基于扩散算法的更高推荐精度。

在稀疏网络上,由于基于扩散的方法的当前准确度非常接近其可预测性,因此提高准确度的可能性相对较低。在这种情况下,我们发现通过多步扩散可以显著提高可预测性,特别是对于历史信息较少的用户。与普遍看法相反,有可能的情况是,基于扩散的方法的较高可预测性与具有更多历史记录的用户不对应。因此,我们提出了扩散覆盖度和项目平均度来解释这种现象。此外,我们证明在实际在线系统中的推荐准确性被文献中使用的随机分区高估,这表明在实际在线系统中的推荐可能是一项更难的任务。

Heider平衡和镜像自我

原文标题:

The Heider balance and the looking-glass self

地址:

http://arxiv.org/abs/1903.12464

作者:

Malgorzata J. Krawczyk, Maciej Woloszyn, Piotr Gronek, Krzysztof Kulakowski, Janusz Mucha

摘要: 我们考虑人际关系的动态,这导致完全连接的网络中的平衡状态。这种方法适用于具有不对称关系的有向网络,并且根据“镜像自我”理论,它被推广到包括演员的自我评估。提出了一种新的自我接纳指数:如果一个行为者与他人的积极关系得到回报,那么他/她自己的关系就是积极的。在动态下获得了一组稳定的关系配置,其中一些参与者的自我评价是否定的。在每个集合中,所有配置具有相同的结构。

利用基于CDR的社会网

络预测复杂的用户行为

原文标题:

Predicting complex user behavior from CDR based social networks

地址:

http://arxiv.org/abs/1903.12579

作者:

Casey Doyle, Zala Herga, Stephen Dipple, Boleslaw K. Szymanski, Gyorgy Korniss, Dunja Mladenic

摘要: 呼叫详细记录(CDR)数据集提供有关个人交互的足够信息,以支持构建和分析详细的经验社会网络。我们采用一个这样的数据集,并描述了使用它创建一个真正的社会网络的各种方法,尽管高度嘈杂的数据源。我们使用生成的网络来预测每个人违反网络服务付款的可能性,这是一种涉及社会,经济和法律考虑因素的复杂行为。

我们使用从网络中提取的大量功能来构建模型,以预测哪些用户将默认。通过分析特征的相对贡献,我们选择尺寸从小到中的最佳性能子集。基于用户维护的紧密关系数量的特征比从用户的地理位置得到的特征执行得更好。论文的贡献包括系统影响分析,即呼叫截断的数量对从 CDR 派生的网络属性的影响,以及通过创建大量不同特征并系统地选择最终表现最佳的特征来构建复杂行为模型的方法模型。

具有不一致性的同质对称

阈值模型:独立性与反一致性

原文标题:

Homogeneous symmetrical threshold model with nonconformity: independence vs. anticonformity

地址:

http://arxiv.org/abs/1903.06680

作者:

Bartłomiej Nowak, Katarzyna Sznajd-Weron

摘要: 我们在完整的图上研究了具有噪声(具有不符合,在社会心理学术语中)的修改的瓦特阈值模型的两个变体。在第一个版本中,通过所谓的独立性引入噪声,而在第二个版本中,反形成起到噪声的作用,这破坏了顺序。这里研究的修正瓦特阈值模型是同质的并且具有上下对称性,这使得它类似于具有单翻转动态的其他二元意见模型,例如多数投票和 q 选民模型。

因为在具有独立性的多数投票模型中,仅观察到连续的相变,而在具有独立性的q-选民模型中也可能存在不连续的相变,我们询问关于因子的问题,这可能导致订单参数的不连续性。我们通过平均场方法研究模型,该方法在完整图的情况下以及通过蒙特卡罗模拟给出精确结果。此外,我们提供了一种启发式推理,它解释了观察到的现象。

我们确实表明,如果阈值r = 0.5,这对应于多数投票模型,则秩序 - 无序转换是连续的。此外,对于两个版本的模型(一个具有独立性,第二个具有反形式)获得的结果给出相同的结果,仅重新调整因子2.然而,对于r> 0.5,顺序参数的跳跃和滞后是观察具有独立性的模型,并且模型的两个版本给出了质量上不同的结果。

推特议员:英国公民

与议员之间的数字互动

原文标题:

Tweeting MPs: Digital Engagement between Citizens and Members of Parliament in the UK

地址:

http://arxiv.org/abs/1904.00004

作者:

Pushkal Agarwal, Nishanth Sastry, Edward Wood

摘要: 对议会进程的脱离和祛魅是当今西方民主国家的一个重要问题。因此,英国议员(议员)寻求新的方式与公民接触,包括在 Twitter 等数字平台上。近年来,几乎所有(650名中的579名)国会议员都创建了 Twitter 账户,并且积累了大量的人口,与该国相当大一部分人口相当。

本文试图通过研究国会议员与公民之间相互作用的数量和性质来阐明这一现象。我们发现尽管 MP 上存在信息过载,但是在个别议员的注意力集中在小时间窗口,当时可能会发生与他们有关的话题。国会议员策略性地管理他们的互动,有选择地回应英国公民,从而担任当选代表,并使用转推来传播他们党的信息。最有希望的是,我们发现 Twitter 在一方的议员和支持(跟随)其他政党议员的公民之间开辟了大量跨党派互动的新途径。

多路网络的扩散行为

原文标题:

Diffusive behavior of multiplex networks

地址:

http://arxiv.org/abs/1904.00265

作者:

Giulia Cencetti, Federico Battiston

摘要: 扩散描述了从高浓度区域到低浓度区域的微观实体的运动。在多路复用网络中,流可以在层内和跨层发生,并且超扩散是由于这两种机制的相互作用而出现多路复用以达到平衡的时间尺度小于孤立的单个网络的时间尺度的制度。 。在强和弱层间耦合的限制中,多重扩散与与系统相关的超拉普拉斯算子的谱相关联。然而,仍然缺乏这种行为出现的一般理论。

在这里,我们阐明了多重结构的结构和动力学特征如何影响拉普拉斯谱特性。例如,我们发现超扩散最早出现在具有较差扩散层的系统中,并且其起始与重叠的存在无关,这仅影响该现象的最大相对强度。此外,优选均匀分配资源以增强层内的扩散,因为高度的层内异质流可能妨碍超扩散。

最后,在由多层形成的多路复用网络中,通过加强不同层之间的层间流动最好地促进扩散。我们的工作可以转变为在现实世界的交通系统中设计相互关联的基础设施,澄清能够推动系统向超扩散状态发展的决定因素。

公平核心-边缘图的谱密度

原文标题:

Spectral density of equitable core-periphery graphs

地址:

http://arxiv.org/abs/1904.00460

作者:

Paolo Barucca

摘要: 核心 - 边结构是各种复杂系统的新兴属性,表明系统中存在一组参与者,它们之间的连接数较多,而且连接外围稀疏的连接数较少。在给定图结构上相互作用的复杂系统的动力学与图本身的谱特性严格相关,然而通常极难获得适用于任意大型系统的分析结果。最近,已经引入了具有规则块结构的随机图的统计集合,即公平图的集合,并且已经在图分区和社区检测的计算硬环境中导出了分析结果。在本文中,我们提出了一个公平核心-边缘图集合的一般分析结果,产生了具有核心-边缘结构的网络谱密度的新显式公式。

社交媒体中人类价值

观和对疫苗接种的态度

原文标题:

Human Values and Attitudes towards Vaccination in Social Media

地址:

http://arxiv.org/abs/1904.00691

作者:

Kyriaki Kalimeri, Mariano Beiro, Alessandra Urbinati, Andrea Bonanomi, Alessandro Rosino, Ciro Cattuto

摘要: 心理,政治,文化甚至社会因素都与疫苗接种的推理和决策过程纠缠在一起,使疫苗犹豫不决成为一个复杂的问题。在这里,通过 Facebook 托管的应用程序管理一系列调查,我们研究了“喜欢”支持或疫苗弹性 Facebook 页面的人的世界观。特别是,我们评估政治观点,道德价值观,人格特质和一般利益的差异,发现那些对疫苗接种持怀疑态度的人似乎更少信任政府,不那么令人愉快,而他们更多地强调反独裁的价值观。

探索 Facebook 页面的语言描述中所表达的道德叙事的差异,我们看到捍卫疫苗的页面优先考虑家庭的价值,而疫苗犹豫页面则关注自由的价值。最后,基于 Facebook 页面上与健康相关的喜欢创建嵌入,我们探索了疫苗犹豫不决的人的共同利益,表现出对自然治疗的强烈偏好。这种探索性分析旨在探索社交媒体平台作为传感工具的潜力,为研究人员和政策制定者提供从数字轨迹中获得的见解,这有助于设计建立信心的沟通活动,基于同样具有吸引力的价值观。人的社会道德标准。

NewsCompare:一种用于检

测国家新闻影响的新颖应用程序

原文标题:

NewsCompare — a novel application for detecting news influence in a country

地址:

http://arxiv.org/abs/1904.00712

作者:

Cristian Pop, Alexandru Popa

摘要: 近年来,“新闻报道”的概念在新闻报道中被引用和抛出,它已成为一个独立的新闻主题。它的核心是一个令人毛骨悚然的问题 - 如果我们的世界观从根本上说是错误的,我们该怎么办?即使内部一致,如果它与现实世界不符,该怎么办?我们的信仰是否合理,或者我们是否可能因为生活在“泡沫”中而被灌输?如果后者是真的,我们怎么能在其范围内测试所述泡沫的极限?我们提出了一种新的方法来增强识别假新闻的过程,通过加速和自动化所涉及的更繁琐和耗时的任务。

我们的应用程序,NewsCompare 将任何目标网站列表作为输入(在我们的用例中与新闻相关,但不限制),并行访问它们并检索其中的任何文本内容。随后将网页相互比较,并初步指出相似之处。可以手动验证这些结果,以确定哪些网站倾向于从彼此中获取灵感。可以分别查询和分析在每个中间步骤上收集的数据,最值得注意的是,我们已经使用来自我们遇到的各种网站的超链接集来绘制该网络特定切片的“地图”。然后可以交叉引用该地图,并进一步加强这样的结论:特定的具有相互联系的链接和发布类似内容的网站可能具有相同的忠诚度。我们在罗马尼亚新闻网站上运行我们的应用程序,我们绘制了几个有趣的观察。

一词多义、简洁

性与语言的频率

原文标题:

Polysemy and brevity versus frequency in language

地址:

http://arxiv.org/abs/1904.00812

作者:

Bernardino Casas, Antoni Hernández-Fernández, Neus Català, Ramon Ferrer-i-Cancho, Jaume Baixeries

摘要: G. K. Zipf 关于词频与其他词语特征之间关系的开创性研究导致了各种语言规律的形成。最受欢迎的是 Zipf 关于词频的定律。在这里,我们关注两个较不集中研究的定律:意义 - 频率定律,即更频繁的词更多义的倾向,以及缩写定律,即更频繁的词更短的倾向。

在之前的一项工作中,我们测试了这些 Zipfian 法律对英语的稳健性,大致测量了字符数量的单词长度,并区分了成人和儿童语音。在本文中,我们将我们的研究扩展到其他语言(荷兰语和西班牙语),并引入另外两个长度测量:音节长度和音素长度。我们的相关分析表明,在所有分析的语言中,意义频率定律和缩写定律都是全局的。

来源:网络科学研究速递

编辑:孟婕

声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。

近期网络科学论文速递

解开狗行为中的语言模式等9篇

对科学的消极态度源于过度自信 等17篇

社区检测的精确“没有免费午餐”定理 等14篇

用于维基百科研究的图结构数据集 等10篇

新型异构图注意网络 等24篇

加入集智,一起复杂!


提高推荐系统长期性能的新方法 | 网络科学论文速递16篇-集智俱乐部

集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

提高推荐系统长期性能的新方法 | 网络科学论文速递16篇-集智俱乐部

让苹果砸得更猛烈些吧!

原文始发于微信公众号(集智俱乐部):集智