通过网络观测数据进行个体治疗效果的机器学习 | 网络科学论文速递14篇
核心速递
-
通过网络观测数据进行个体治疗效果的机器学习
-
有向网络的双曲嵌入模型;
-
复杂人际网络的同步;
-
基于 Facebook 评论的实时和批量情感分析的用户态度检测与预测;
-
尽可能早的新闻标签:真实还是假?;
-
时间连通模式对流行病过程的影响;
-
基于增量 Skip-gram 和负抽样的动态网络嵌入;
-
弱关系现象的关键;
-
图神经网络的无冗余计算图;
-
在线影响最大化的因子分解 bandit;
-
社交媒体中仇恨言语检测的迁移学习;
-
自动识别社交媒体中的投诉;
-
自动化和职业移动性:数据驱动的网络模型;
-
拥有最后一句话:了解如何抽样在线讨论;
通过网络观测数据进
行个体治疗效果的机器学习
原文标题:
Learning Individual Treatment Effects from Networked Observational Data
地址:
http://arxiv.org/abs/1906.03485
作者:
Ruocheng Guo, Jundong Li, Huan Liu
摘要: 网络中可以方便得获取观测数据,从这些数据中学习个体因果效应在许多有影响力的研究领域引起了更多的关注,如经济学,医疗保健和教育。例如,我们的目的是研究药物(治疗)如何影响某个患者的健康状况(结果)。为了验证观察数据的因果推断,我们需要控制混淆因素的影响-这些因素会影响治疗和结果。按照这个思路,现有的学习个人治疗效果的工作压倒性地依赖于没有隐藏的影响因素的假设。
然而,在现实世界的观测数据中,这种假设是站不住脚的,甚至可以说是不现实的。实际上,他们忽略的一个重要事实是,观测数据可以带有可用于推断隐藏影响因素的网络信息。例如,在一项关于药物的个体治疗效果的观察性研究中,不进行随机实验,而是根据一系列因素将药物分配给个体。一些因素(例如,社会经济状况)难以直接测量,因此成为观察数据集的隐藏混杂因素。幸运的是,个人的社会经济地位可以通过她在社会网络中与谁联系来反映出来。考虑到这一事实,我们的目标是利用网络结构识别隐藏混杂因素的模式,以便从观察数据中学习个体治疗效果。
在这项工作中,我们提出了一个新的因果推理框架,即网络解构器,它通过从观察数据案例之间的网络结构中揭示隐藏的模式来学习混淆器的表示。根据经验,我们进行了大量实验来验证网络解除配置器对各种数据集的有效性。
有向网络的双曲嵌入模型
有向网络的双曲嵌入模型
原文标题:
A hyperbolic Embedding Model for Directed Networks
地址:
http://arxiv.org/abs/1906.03597
作者:
Zongning Wu, Zengru Di, Ying Fan
摘要: 网络嵌入是当前网络科学中的一个热门话题,并观察到大多数真实的复杂系统可以作为几何结构出现并嵌入隐藏的度量空间中,其中节点之间的几何距离决定连接的可能性。其中,与许多真实复杂系统的结构组织相关的双曲空间因此受到广泛关注。然而,最近开发的大多数方法和测量较少考虑链路的不对称性。
在这里,我们讨论如何通过识别有向网络的二分结构来复用节点信息作嵌入基础,我们提出了一般的映射框架,它混合了复杂网络,有向链接和隐藏度量空间的拓扑结构。通过分割节点的不同属性,可以对不同类型的节点之间的可能性进行建模。除此之外,我们将此模型应用于一些真实系统,包括国际贸易网络和 C.elegans 神经网络。结果证实,有向网络也能够映射到度量空间,网络嵌入信息可以改善现有模型的应用范围。
复杂人际网络的同步
复杂人际网络的同步
原文标题:
Synchronization of complex human networks
地址:
http://arxiv.org/abs/1906.03262
作者:
Shir Shahal, Ateret Wurzberg, Inbar Sibony, Hamootal Duadi, Elad Shniderman, Daniel Weymouth, Nir Davidson, Moti Fridman
摘要: 人际网络的同步对我们的文明至关重要,理解控制人类网络变化背后的的动力,行为和基本参数在我们生活的许多方面都很重要。近年来已对人类集合进行了研究,但对网络参数和嘈杂环境的控制非常有限。特别是,研究主要集中在全部耦合上,而当前的社会网络和人类交互通常基于复杂的耦合配置,例如最近邻耦合和小世界网络。
因为任何集合的同步由其网络参数控制,所以在控制耦合和延迟的同时研究不同类型的人类网络对于理解不同类型的人类网络的动态性是必不可少的。我们研究了复杂网络中专业小提琴手之间的同步,完全控制了网络连接,每个连接的耦合强度和延迟。
我们发现耦合网络的常用模型,例如 Kuramoto 模型,不能应用于人类网络。我们发现玩家可以将其周期性改变以找到耦合网络的稳定解决方案,或者他们可以通过忽略令人沮丧的信号来删除连接。与现有模型相比,这些额外的自由度可实现新策略并产生更好的解决方案。我们的结果可能会影响许多领域,包括交通管理,疫情控制和股市动态。
基于Facebook评
论的实时和批量情感分
析的用户态度检测与预测
基于Facebook评
论的实时和批量情感分
析的用户态度检测与预测
原文标题:
Detection and Prediction of Users Attitude Based on Real-Time and Batch Sentiment Analysis of Facebook Comments
地址:
http://arxiv.org/abs/1906.03392
作者:
Hieu Tran, Maxim Shcherbakov
摘要: 大多数人在社会网络(例如Facebook,Vkontakte)上拥有自己的账户,他们表达了对不同情况和事件的态度。 Facebook 只提供积极反馈和分享按钮。但是,即使意见是否定的,知道某个用户在帖子上的位置也很重要。可以从用户的评论中提取积极,消极和中立的态度。关于积极,消极和中立意见的总体信息可以使人们了解人们如何在某个位置做出反应。此外,重要的是要知道在这段时间内态度是如何变化的。本文是一种基于情感文本分析的新方法,用于检测和预测Facebook 评论的消极和积极模式,它结合了
(i)用于模式发现的实时情感文本分析和
(ii)用于创建意见预测的批量数据处理算法。
为了执行预测,我们提出了两步算法,其中:(i)使用无监督聚类技术聚类模式,以及
(ii)基于找到来自特定聚类的最近模式来执行趋势预测。
案例研究表明所提方法的效率和准确度(平均MAE = 0.008)及其实际适用性。此外,我们发现了三种类型的用户态度模式并对其进行了描述。
尽可能早的新
闻标签:真实还是假?
尽可能早的新
闻标签:真实还是假?
原文标题:
News Labeling as Early as Possible: Real or Fake?
地址:
http://arxiv.org/abs/1906.03423
作者:
Maryam Ramezani, Mina Rafiei, Soroush Omranpour, Hamid R. Rabiee
摘要: 通过在线社会网络伪装的假信息与真信息传播是许多应用中的重要问题。新闻发布时间与其标签检测之间的时间差距是向广播真实信息和避免假信息传播的重要一步。因此,该领域的一项具有挑战性的任务是在传播的早期阶段识别虚假和真实的新闻。然而,仍然需要在最小化时间间隔和最大化准确性之间权衡。尽管最近在检测假新闻方面做出了努力,但是没有明确的工作明确地将早期检测纳入其模型中。
在本文中,我们关注新闻、并通过考虑建模和预测的早期性来提出模型。我们提出的方法使用一个新的损失函数,并且用递归神经网络和新的停止规则。鉴于新闻的背景,我们首先将其嵌入特定于类的文本表示中。然后,我们利用用户的可用公共资料和新闻传播的速度,对新闻进行早期标记。与现有技术的基线和模型相比,真实数据集上的实验证明了我们的模型在早期标记和准确性方面的有效性。
时间连通性结构
对流行病过程的影响
时间连通性结构
对流行病过程的影响
原文标题:
Impact of temporal connectivity patterns on epidemic process
地址:
http://arxiv.org/abs/1906.03442
作者:
Hyewon Kim, Meesoon Ha, Hawoong Jeong
摘要: 为了提供关于许多现实世界时间网络动态的全面地图,我们根据修改后的活动驱动的时间网络上的易感-感染-免疫(SIR)模型,得到具有信息记忆的改进的动态驱动的空间网络(ADTN)。特别是,我们关注的是SIR模型的流行阈值如何受到节点活动的异质性和时间和静态机制中的记忆强度的影响。虽然节点之间的强关系(记忆)抑制了流行病的传播,但节点活动的异质性增强了它最初的全球化。
由于 SIR 模型的流行阈值对静态网络中节点的度分布非常敏感,我们使用可能的活动指数集和在时间上生成相同度分布的内存指数测试修改后的 ADTN 上的 SIR 网络模型。我们还讨论了最大聚类的时空尺度特性和流行阈值的最大程度的作用。据观察,高活性节点的存在能够在短时间内触发流行病的初始传播,但它也限制了其最终传播到整个网络。这意味着在流行病的传播时间与其爆发规模之间存在权衡。最后,我们建议在 ADTN 上的 SIR 模型的相图和在这种情况下流行病传播的最佳条件。
基于增量 Skip-gram
和负抽样的动态网络嵌入
基于增量 Skip-gram
和负抽样的动态网络嵌入
原文标题:
Dynamic Network Embedding via Incremental Skip-gram with Negative Sampling
地址:
http://arxiv.org/abs/1906.03586
作者:
Hao Peng, Jianxin Li, Hao Yan, Qiran Gong, Senzhang Wang, Lin Liu, Lihong Wang, Xiang Ren
摘要: 网络表示学习作为一种学习定点的低维表示的方法,最近引起了相当多的研究关注。事实证明,它在大型图上的许多机器学习任务中非常有用。大多数现有方法侧重于学习静态网络中顶点的结构表示,但不能保证在动态网络场景中准确有效地嵌入。
为了解决这个问题,我们提出了一种有效的增量 skip-gram 算法,该算法采用负采样进行动态网络嵌入,并提供一套理论分析来保证性能。具体来说,我们首先将动态网络划分为更新的子图,包括添加/删除链接和顶点,以及随时间推移保留的网络。然后,我们将网络嵌入的目标函数分解为网络的增加,消失和保留部分。
接下来,我们提供一种新的基于随机梯度的方法,由网络分区引导,以更新节点和参数向量。证明了所提出的算法产生的目标函数值与原始目标函数的差异有限。实验结果表明,我们的建议可以在保持可比性能的同时显著缩短训练时间。我们还证明了理论分析的正确性和动态网络嵌入的实用性。我们通过多标签分类和链路预测任务对多个真实的大型网络数据集进行了大量实验,以评估所提出的框架的有效性和效率,并且实现了多达22倍的效率。
弱关系现象的关键
弱关系现象的关键
原文标题:
The key to the weak-ties phenomenon
地址:
http://arxiv.org/abs/1906.03662
作者:
Ke-ke Shang, Michael Small, Di Yin, Yan Wang, Tong-chen Li
摘要: 对弱关系现象的研究历史悠久且记录良好,对这种社会现象应用的研究最近引起了越来越多的关注。然而,进一步探讨弱关系现象背后的原因仍然具有挑战性。幸运的是,数据驱动的网络科学为分析社会现象背后的因果机制提供了一种具有实质性解释力的新方法。
受此观点的启发,我们提出了一种方法,以进一步探索时间弱关系现象背后的驱动因素。我们发现,弱关系现象背后的明显直觉是不正确的,而且与这些弱关系相关的大量未知的共同朋友往往是弱关系现象出现的关键原因之一。例如,弱关系的科学合作者更愿意参与直接合作,而不是与共同的同事分享想法 – 自然倾向于短暂断裂强连接链。
图神经网络的无冗余计算图
图神经网络的无冗余计算图
原文标题:
Redundancy-Free Computation Graphs for Graph Neural Networks
地址:
http://arxiv.org/abs/1906.03707
作者:
Zhihao Jia, Sina Lin, Rex Ying, Jiaxuan You, Jure Leskovec, Alex Aiken
摘要: 图神经网络(GNN)基于图中跨节点的邻居的重复信息聚合。然而,因为在不同节点之间共享公共邻居,所以这导致重复且低效的计算。我们提出了分层聚合计算图(HAG),这是一种新的 GNN 图表示,它通过分层管理中间聚合结果,在 GNN 训练和推理中消除重复计算和不必要的数据传输,明确地避免了冗余。
我们引入了精确的成本函数来定量评估不同 HAG 的运行时性能,并使用新的 HAG 搜索算法来寻找优化的 HAG。实验表明,通过将端到端培训吞吐量提高2.8倍,并将 GNN 培训中的聚合和数据传输减少6.3倍和5.6倍,HAG 表示明显优于标准 GNN 图表表示,同时保持原始模型准确性。
在线影响最大化目
的的因子分解 bandit 算法
在线影响最大化目
的的因子分解 bandit 算法
原文标题:
Factorization Bandits for Online Influence Maximization
地址:
http://arxiv.org/abs/1906.03737
作者:
Qingyun Wu, Zhige Li, Huazheng Wang, Wei Chen, Hongning Wang
摘要: 我们研究了社会网络中在线影响最大化的问题。在该问题中,学习者旨在通过与网络交互来识别网络中的“最佳影响者”集合,即重复选择种子节点并观察网络中的激活反馈。我们利用影响最大化问题的一个重要特性 – 网络共享性,这在大多数现有的在线影响最大化工作中都被忽略了。
为了实现网络的协同性,我们将边上的激活概率分解为相应节点上的潜在因子,包括给定节点上的影响因子和接收节点上的敏感因子。我们提出了一种基于置信度上限的在线学习解决方案来估计潜在因素,从而估计激活概率。通过基于因子分解的在线影响最大化算法实现了遗憾值相当大的减少。我们使用两个真实网络的广泛实证评估显示了我们提出的解决方案的有效性。
社交媒体中仇恨
言语检测的迁移学习
社交媒体中仇恨
言语检测的迁移学习
原文标题:
Transfer Learning for Hate Speech Detection in Social Media
地址:
http://arxiv.org/abs/1906.03829
作者:
Marian-Andrei Rizoiu, Tianyu Wang, Gabriela Ferraro, Hanna Suominen
摘要: 在当今社会,越来越多的人与互联网相连,其信息和通信技术已成为我们日常生活的重要组成部分。不幸的是,与社交媒体和其他在线内容的连接增加的另一面是网络欺凌和仇恨,以及其他有害和反社会行为。基于机器学习和自然语言处理的模型提供了一种在网络文本中检测这种仇恨言论的方法,以使讨论论坛和其他媒体和平台更安全。
然而,主要的困难是注释足够多的案例来训练这些模型。在本文中,我们报告了开发自动文本分析方法,能够联合学习来自几个较小的,不相关的数据集的仇恨的单一表示。我们在总共37,520美元的英文推文中训练和测试我们的方法,这些推文在第一次检测任务中用于区分无害信息和种族主义或性别歧视情境,以及第二次检测任务中的仇恨或攻击性内容。
我们最先进的方法结合了深度神经网络架构和传递学习。它能够创建特定于这些任务的单词和句子嵌入,同时还嵌入了通用仇恨语音的含义。它的预测正确性分别是第一和第二项任务中的宏观平均F1分别为 78 %和 72 %。这种方法可以生成一个可解释的二维文本可视化 – 称为仇恨地图 – 能够分离不同类型的仇恨言论并解释使文本有害的原因。这些方法和见解不仅具有更安全的社交媒体的潜力,而且还减少了让人类主持人和注释者暴露于令人痛苦的在线消息传递的需求。
自动识别社交媒体中的投诉
自动识别社交媒体中的投诉
原文标题:
Automatically Identifying Complaints in Social Media
地址:
http://arxiv.org/abs/1906.03890
作者:
Daniel Preotiuc-Pietro, Mihaela Gaman, Nikolaos Aletras
摘要: 抱怨是在人类和计算机媒介通信中经常使用的基本言语行为,以表达在特定情况下现实与期望之间的负面不匹配。自动识别社交媒体中的投诉对于组织或品牌来说至关重要,以改善客户体验或开发用于处理和响应投诉的对话系统。在本文中,我们首先介绍了计算语言学中投诉的系统分析。我们在 Twitter 上收集了一份用英语表达的书面投诉的新注释数据集。 我们提供了广泛的语言学分析抱怨作为社交媒体中的言语行为,并培训强大的基于特征的神经模型和9个领域的投诉,使用远程监督实现高达79 F1的预测性能。
自动化和职业移动
性:数据驱动的网络模型
自动化和职业移动
性:数据驱动的网络模型
原文标题:
Automation and occupational mobility: A data-driven network model
地址:
http://arxiv.org/abs/1906.04086
作者:
R. Maria del Rio-Chanona, Penny Mealy, Mariano Beguerisse-Díaz, Francois Lafond, J. Doyne Farmer
摘要: 许多现有工作都倾向于自动化,但由于新技术也创造了新的工作岗位,因此了解工作转换至关重要。基于经验数据,我们构建了一个职业移动网络,其中节点是职业,边代表工作转换的可能性。为了研究自动化的影响,我们开发了劳动力市场模型。在宏观层面,我们的模型再现了 Beveridge 曲线。在微观层面,我们根据与劳动力需求的自动化相关的重新分配来分析特定职业的失业问题。网络结构起着重要作用:具有相似自动化水平的职业工人在短期和长期都经常面临不同的结果,因为某些职业几乎没有提供过渡的机会。我们的工作强调了在转型可能性有限的职业中指导再培训计划的重要性。
最后一句话:了解在
线争论中的抽样问题
最后一句话:了解在
线争论中的抽样问题
原文标题:
Having the Last Word: Understanding How to Sample Discussions Online
地址:
http://arxiv.org/abs/1906.04148
作者:
Gioia Boschi, Anthony P. Young, Sagar Joglekar, Chiara Cammarota, Nishanth Sastry
摘要: 在线争论中,就像非在线的,个体表达,争论,使用论据支持或反驳,导致某些论点获胜(可能来自辩论的不同方面)。然而,在线对话的规模远大于离线对话,往往有成千上万的用户使用着话语权。因此,读者经常被迫抽样提出的论点或论据的子集。由于这种抽样很少以原则性方式进行,因此用户可能无法获得所有相关的“获胜”论据,以便从样本中全面了解辩论情况。
本文有兴趣回答用户如何对在线对话进行抽样以有选择地支持获胜论点的问题。我们应用论证理论和复杂网络中的技术来构建一个模型,该模型根据理想化的在线讨论中的位置来预测规范性获胜论点的概率。在线讨论被模型描述成一个回复网络,其中节点表示交换的评论,而有向边表示可以支持或反驳回复。我们的模型显示,网络中支持的回复比例,网络的度内分布和未反驳的参数的位置(“结尾句”)都决定了评论是获胜论证的概率行为、地点。
这也通过从在线辩论平台 Kialo 中的数据得到验证。因此,在预测答复网络中获胜论点的位置时,我们可以建议读者在他们想要在这些讨论中掌握获胜意见时应该采样和阅读哪些论点。我们的模型对未来在线讨论平台的设计具有重要意义。
来源:网络科学研究速递
编辑:孟婕
声明:Arxiv文章摘要版权归论文原作者所有,由本人进行翻译整理,未经同意请勿随意转载。本系列在微信公众号“网络科学研究速递”(微信号netsci)和个人博客 https://www.complexly.me (提供RSS订阅)进行同步更新。
近期网络科学论文速递
集智俱乐部QQ群|877391004
商务合作及投稿转载|swarma@swarma.org
◆◆◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
原文始发于微信公众号(集智俱乐部):集智