导语


长久以来,学术界对于论文质量的评价,基于引用次数,然而这一指标并不能代表论文的质量或潜力。5月,一篇发表于 Nature Biotechnology 的论文“基于对知识网络动力学的学习,可以提前预测有影响力的研究”,基于复杂网络模型构建了模型DELPHI,对生物技术类论文的应用潜力,可以在发表的当年就给出准确的预测。这项技术及其背后的方法学,将有助于科研资助方,选出那些更有潜力的研究方向。


研究领域:科学学,网络模型

郭瑞东 | 作者

赵雨亭 | 审校

邓一雪 | 编辑



论文题目:

Learning on knowledge graph dynamics provides an early warning of impactful research

论文地址:

https://www.nature.com/articles/s41587-021-00907-6




1. 论文的可重复性危机




当代科学面临着可重复危机,在经济学、心理学领域尤为严重。一篇5月21日发表于 Nature Advances 的论文[1],就指出相比可重复的研究,无法重复的研究被引用的次数更多。图1展示了2019年,在 Nature 和 Science 两个跨学科顶刊,以及经济学和心理学杂志中能够重现和不能重现的论文被引用总次数的累积概率分布,可以看到有相当比例的研究都是无法重复的。平均来看,相比不可重复的论文,每篇可重复的论文被引用的次数减少了153次。

       图1:可重复和不可重复的论文的被引用数目的累积概率分布


不仅在发表当年,不可重复的论文获得的引用比可重复的更多。在更长的时间尺度,这一趋势也是成立的,如图2所示:
     图2:可重复和不可重复的年度平均应用数目的折线图

为何不可重复的研究,反而会得到更多的引用,可能的解释是那些不可重复的研究会更加有趣或者有争议性,这样的研究更容易被之后的研究者关注并记住。然而这一趋势也使得仅仅通过引用数量,来判断研究的价值变得不可靠,如果引用数目多的论文,反而有可能是不可重复的,那么据此进行的研发,就很难产生实际的应用。

其它评价学术研究的指标,例如发表论文的影响因子IF,或者H-index,都面临诸多问题,例如在不同时间,不同领域无法以统一的方式对比、容易被操纵等。且这些指标的评价都相对滞后,无法及时指导科研经费的拨款或者青年科学家的雇佣决策。




2. DELPHI是一个什么模型




借助机器学习去评价论文的价值,需要先考虑该模型使用了哪些输入特征,该模型的输入不仅包含了论文的引用信息,作者、作者所属的机构,以及论文发表的期刊或会议所属的网络都会考虑其中。据此逐步构建知识网络,将每篇论文当成一个节点,构建动态异质图(dynamic heterogenous graph),其中包含了随时间变化的引用关系动态。之后,通过训练一个能基于之前的网络指标,区分高影响因子和低印象因子论文的机器学习算法,最终对论文的可能影响力进行预估。

图3:DELPHI算法框架




3. DELPHI的表现




研究人员进行了验证:考察两篇引用数目相等的论文(本研究的所有论文集中在生物技术领域),DELPHI预测得出的高影响力和低影响力的论文,其引用模式和作者影响力模式表现出显著差异,这说明算法能够捕捉隐藏的网络模式,同时这些模式的区分影响了论文的质量。
       图4:等引用量论文,预测出不同影响力的引用和作者网络各自呈现的模式示意图

如何说明算法预测的高影响力论文其结果是靠谱的,可通过该文的二阶或三阶引用量来评价,例如引用A的论文BCD,其被引用次数之和就是A的二阶引用数,如此,可以发现高影响力的论文,其数年后的二阶和三阶引用数均值明显高于低影响力的论文,见图5。这说明这些文章启发的成果,带来了更多进一步的发现,而最初带来这一系列发现的研究A,其价值明显更高。
       
图5:预测出影响力不同的论文的二阶和三阶引用数随年份变化的折线图

而根据真实生物科技的影响力标签,可以发现DELPHI在论文发表的当年,就能区分有影响力的论文,随着年份的增加分类效果显著提升,在两年之内,分类准确率就能达到87%,见图6。
                               
图6:DELPHI显著区分论文未来影响力




4. 论文及总结




发表科研论文数量的增加,使得研究者需要花费更多的时间,从中找出有价值的方向,以便追上最新的研究进展,并基于最新的研究,产生更具突破性的发现。而经由机器学习,可以综合利用多个网络的指标,为研究者指出最新研究中有潜力的那部分,并帮助政策制定者选择合适的项目或青年科学家予以资助,从而提升全社会资源分配的效率。

DELPHI的模型,仅仅在生物技术上进行了验证,其进一步的可行性需要在其它数据集中进行测试。但其指出的知识网络加机器学习的算法设计套路,经过挑战后,有可能应用在诸如投风险投资预测,文学作品或音乐专辑是否成为爆款等预测问题上。

参考资料:
[1] https://advances.sciencemag.org/content/7/21/eabd1705.full


复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:



推荐阅读



点击“阅读原文”,追踪复杂科学顶刊论文