关键词:复杂网络,链路预测,图表示学习
论文题目:Link prediction using low-dimensional node embeddings: The measurement problem
论文链接:https://www.pnas.org/doi/10.1073/pnas.2312527121
图表示学习是复杂网络上机器学习的基础技术。近年来,低维节点嵌入作为一种流行的图表示方法,已被广泛应用于多种下游机器学习任务中,尤其是链路预测任务。尽管最近的文献显示,图表示方法在链路预测上取得了显著成功,但这些成果的评估往往依赖于曲线下面积(AUC)这一指标,而忽略了其固有的偏差问题。
鉴于真实的链路预测问题中,网络链路数据往往是稀疏的,最新发表于PNAS的一项研究,宾夕法尼亚大学与加州大学的研究者提出了一种基于顶点的局部性能衡量方法,即VCMPR@k图(参数k表示在评估链接预测性能时考虑的顶部预测链接的数量),来揭示现有低维嵌入方法在链路预测上的性能不足问题。通过定义顶点中心的度量标准,结果显示,在真实世界数据集上,AUC指标可能导致对质量的错误结论。这些度量标准用于构建VCMPR图,定量地展示了链路预测的低质量。
为了解释这些结果,研究者设计了一个理论框架,严格证明了从低维嵌入中常用的链路预测算法,不太可能获得高的局部精确度/召回率值。该研究的亮点在于识别了链路预测中的一个基本测量问题,并提出了对现有结果的质疑,为图表示学习领域提出了重大的科学挑战。
图1. 在 开源的ogbl-collab 数据集上训练了多种节点嵌入方法,用于转导链路预测(预测图中已存在节点间未观察到的链接)。结果显示,至少 40% 的顶点的 VCMPR@20 得分小于 0.4。
点击“阅读原文”,报名读书会