关键词:科学学,引文网络,文本分析,文献计量学


论文标题:Hidden Citations Obscure True Impact in Science
论文期刊:arXiv
论文地址:https://arxiv.org/abs/2310.16181v1

参考文献是科学家用以标示前人知识的机制,近来已被广泛使用,成为衡量科学影响力的标准。然而,当一项发现成为领域内不言自明的常识时,对其的引用就会因此消失。这就产生了隐藏引用(Hidden Citations)的概念。近日巴拉巴西组的研究者依靠无监督可解释机器学习,系统地识别隐藏引用。

研究发现对于有影响力的发现,隐藏引文的数量超过了引文数量,这与发表地点和学科无关,而是取决于稿件文本中对主题的讨论程度。对某一发现的讨论越多,它在标准文献计量分析中的可见度就越低。

隐藏引文表明,文献计量学在量化研究的真正影响力方面提供了一个有限的视角。从科学文献的全文中提取知识,以包含隐藏引用,从而能够更准确的评价科研成果的影响是必要的。

图1 研究方法。针对论文全文,使用无监督主题提取(图a,b)将其中涉及的已有观念根据是否引用是否提及,分为提到却没有引用(隐藏引用,蓝色),提到且被引用(橙色)及引用但没有提到(棕色)。统计每个已有观念,统计全部文献库中各年三类引用的数量


图2:a)发表年份越长,隐藏引用的比例越高。b)不论何种学科(颜色)真实引用数和隐藏引用数呈正相关


图3:不同学科(前两列计算机,后两列生物)在预印平台arxiv(第一行)和Nature主刊(第二行)发表的论文中,隐藏引用的数量


引用数作为评价科研成果及科学家的最主要指标,由于隐藏引用的广泛存在,有被滥用的倾向。不止领域内基础性的研究被忽略,还存在引用但没有在论文中提到其贡献的虚假引用。然而,由于论文全文的知识版权问题,限制了基于论文全文的分析工具在科学学中的应用。从方法论上,该研究指出了无监督文本主题提取在科学学研究中的作用。



编译|郭瑞东

计算社会科学读书会第二季



详情请见:

数据与计算前沿方法整合:计算社会科学读书会第二季启动



推荐阅读

1. 引文网络分析揭示全球科研不平等加剧:混圈子正阻止新想法诞生
2. 前沿速递:揭示高阶引文网络中期刊的特征
3. 学术互捧有用吗?46万条引文数据揭示互惠引用的潜在危害
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会