导语


2022年5月发表在 Nature Human Behaviour 的新研究,通过分析1980-2012年间150个学科的论文引用数据,使用基于语义相似性和多重网络的新分析方法,揭示了随着科研全球化,不同国家之间的研究正在变得越发不平等,这种国与国之间的不平等将会阻碍新想法的诞生。


关键词:引文网络,科学学,马太效应,语义相似性

郭瑞东 作者

梁金 | 审校

邓一雪 | 编辑


 

论文题目:
Leading countries in global science increasingly receive more citations than other countries doing similar research
论文链接:
https://www.nature.com/articles/s41562-022-01351-5

 



1. 如何研究论文引用的不平等



 
论文的引用数据虽然不能完全代表论文的质量,但在科研经费评审,科研人员晋升上,都发挥着不可取代的核心作用。虽然科学是无国界的,但科研人员却有各自的国籍,属于大大小小的圈子。由此不可避免地倾向于引用研究圈子内的研究者的成果,而不是那些不属于圈子内的研究者的相近研究。
 
这种混圈子的行为,会让研究人员视野狭窄,从而为新观点的涌现设置不可忽视的阻碍。类比生物界的近亲结婚,如果学术界都忙于混圈子,那么研究者关注的问题将越来越细,缺少多样性。然而这类现象,由于其关注的是隐藏的认知偏见,很难系统性地进行研究。传统的问卷或实验将无法证实或证伪在普遍意义上,科研人员是否存在过多引用本国研究者这一现象。
 
然而正如引力会扭曲我们对光的感知一样,国家因素也扭曲了科研人员对研究成果的感知。基于微软学术图中(Microsoft Academic Graph)中2000万篇1980-2012年间的论文引用数据,研究者首先构架真实的论文引用网络;之后基于论文摘要,通过文本相似性,基于相关主题的已有研究应被新研究引用(站在巨人的肩上),构建文本相似度引文网络。最后对比两个网络的差异,指出是否存在国家层面的论文引用不平等。这种方法被称为“引文透镜(citational lensing)
 

图1. 引文透镜示例图,其中每个点代表一篇论文,边代表引用关系。该多重网络(multiplex network)最上一层是引文网络,最下一层是基于文本相似度构建的文本网络,中间一层的边的权重,代表了论文引用过程中,由于偏见导致的过多/过少引用。

 
如果了解相对论,引文透镜的命名会让人联想到引力透镜。恒星的引力会扭曲空间,导致光并非沿直线传播,当引力过大时,甚至连光都无法逃脱星体的引力,形成黑洞。而在科研中,科学家身上的标签,如国别、所属学校,甚至某个导师的传承,都可能成为扭曲思想自由流动的引力。当引力过于强大时,一个领域全是圈内人的自娱自乐,这样的研究就会如黑洞一般,只是浪费资源,却无法产生有意义且可改变世界的发现。
 
 



2. 处在边缘位置的研究不被认同



 
随着各国对科研的关注,以及冷战结束带来的全球化浪潮,参与科研的国家越来越多(图2a)。对于物理/数学这样依赖大项目的学科,平均来看,一篇论文的作者所属国籍数从1980年的20多国,到2012年几乎翻倍;而对于社会科学,国际合作的普及更是使得论文平均作者所属的国籍从不到10国,上升到2012年的20余国。
 

图2. (a)4类专业论文平均作者所属的国籍数的折线图,(b)将论文按照引文网络中的入度中心性分为核心和边缘,对比总体来看引文网络和真实引用的相关系数(纵轴)。(c)对b图分学科拆分展示。

 
科研全球化不等于边缘国家的研究者获得了其成果应得的认可。从1980年开始,处在中心位置的论文,其相互引用的情况和基于引文网络预测的相关系数持续升高,而处在边缘位置的论文,其被引用与否变得和主题越发不相关,体现在引文网络和文本相似度网络的相关系数显著降低。这一趋势对于各学科都适用。这意味着处在边缘的研究者即使做出研究,也没有在之后得到应有的关注。
 
 



3. 哪个国家造成的科研引文网络扭曲更多?

美国一骑绝尘



 
接下来的问题是,对于科研中的引用不平等,哪个国家“贡献”最大呢?对上述分析中处于中心和边缘的论文按作者国籍拆分,发现由于美国研究者过多地引用本国研究者的论文,导致引文网络的扭曲最为严重,在生物/医学及生态学领域,该趋势还有所上升(图3最左)。而在工程和计算机领域,由于中国人过多引用本国研究者导致的引文网络扭曲已经追平了美国(图3中左)。在物理和数学领域(图3中右),中国研究者造成的扭曲也显著上升,即将追上美国研究者的扭曲水平。而对于社会科学,英美研究者造成的引文网络扭曲显著升高,中国则保持不变(图3最右)
 

图3. 各国研究者1980-2012年间,各学科论文引用扭曲程度的折线图

 
值得注意的是,图3展示了来自荷兰和瑞士的研究者,这30年间几乎没有造成论文引用网络的扭曲(接近0),即他们没有在统计上过多的引用本国研究者的成果,而是相对客观地按照摘要的相关程度决定引用哪一篇论文。
 
将各国2000和2012年由本国研究者造成的引文网络的扭曲程度,分地区及学科绘制散点图,可以看到大部分国家位于每幅图的左下角,即2000年属于引文网络中被忽视的部分,在2012年依旧如此,尤其对于非洲,中东、拉美及加勒比地区的国家。这说明科研领域的引用不平等是稳定且持续的,国境线层面的马太效应,也如同个人层面的富者越富,穷者越穷。
 

图4. 位于各地区的国家在不同学科引文网络的扭曲程度的散点图,每个点代表一个国家,横轴是2020年的引文网络扭曲程度,纵轴是2012年的,负值代表该国研究被本国的研究者忽视。

 
 



4. 从更大的视角来看科研中的马太效应



 
基于引文网络,已有很多值得关注的新发现,例如:
2600万篇论文引用调查:科研界马太效应加剧,强强联合愈发普遍
创新更多发生在科研网络的边缘
PNAS:数以亿计的论文,正在成为科学创新的阻力
分析了2500万篇论文后,发现科学正在变得越来越保守
想要原创成果?请建新鲜团队!——海量论文实证分析的建议》。
 
除此之外,2022年的PNAS论文“全球引文不平等正在增加”[1],也是通过对来自400万作者2010-2015年间总计2600万篇论文引用数据的分析,指出与“普通科学家”相比,引用排名前1% 的科学家在出版和合作活动方面的模式有所不同:引用排名前1%的研究者引用份额不断增加,而且引用不平等在自然科学、医学科学和农业科学中呈上升趋势。
 
Nature Human Behaviour 的这项研究研究采取了语义相似性,考虑到来自同一国家的研究者自然会关注相近的话题,有相似的表达风格,因此被过多的引用也是有一定合理性的。这个不可避免的噪音信号影响了与真实引用网络的比较得出的扭曲程度的客观性。对此未来的研究者需要考虑更多的相关因素,例如论文的质量而不仅仅是主题是否相关。
 
尽管存在上述问题,但基于多重网络和自然语言处理的“引文透镜”的出现,说明了计算社会科学可以使用新工具对海量数据集进行持续地深度挖掘,得到之前无法量化研究的结论。除了按照国家维度拆分数据,还可以按照研究机构,找出哪些大学的研究者更像荷兰和瑞士的科研人员一样不偏不倚,据此评估科研政策带来的影响是让研究者变得更加开放还是封闭。
 
接触不同的观点和能力,可不断改善科研合作等集体解决问题行动的可能结果,而科研领域持续的引文网络扭曲,将会阻碍知识和思想的传播。另一方面被忽视的研究,不论是由于本身质量差还是由于来自圈外人而被忽略,都意味着人力资源的浪费,尤其是对于处于发展中的新兴国家更是如此。从这个视角来看,伴随着中国经济总量和科研投入的增加,引文网络的扭曲程度也显著增加(虽然这两者之间的因果关系无法论证),这一方面印证了中国科研实力的增加及精英科学家的持续涌现,另一方面却更加值得研究者警惕。
 
一个可能的干预方案是“引导性透镜”,即相关主题的论文推荐,这可以让研究者接触相关主题的研究。通过推荐后的点击数据,还可以进一步研究发现是哪些因素导致了引文网络的扭曲,例如是否是遣词造句的风格差异导致了不成比例的引用,或是对年轻研究者的忽视造成了引文网络的扭曲。
 
[1] https://www.pnas.org/doi/10.1073/pnas.2012208118


复杂系统视角下的科学学读书会


科学是研究实践、是理性精神,也是一个由学者、文献、科研项目、科学思想与灵感等一起构成的自组织、自生长的复杂系统。科学学则是一门学科,旨在深入理解科学研究的种种因素并推动科学发展。认知层面上,从复杂系统的视角研究科学,能否给我们带来对科学更深刻的理解?个人科研实践中,什么样的论文高引?怎样规划科研路线?哪些课题大有可为?

集智俱乐部组织了6期「复杂系统视角下的科学学」读书会,讨论科学学相关的科研进展和经典文献,形成了包括数十位相关领域的研究者和硕博在内的科学学社区。欢迎感兴趣的朋友报名加入交流讨论。



详情请见:
复杂系统视角下的科学学——系列线上读书会开放招募



推荐阅读



点击“阅读原文”,报名读书会