重组理论揭示了多样性(不寻常组合)与科学进步之间的潜在关系,指出对于知识的非常规组合,例如结合来自不同领域的两项高影响力发现,可以促进新的发现和科学突破。那这一理论对于数据而言是否有效呢?近期发表在PNAS上的一项研究揭示了非典型数据集组合在科学影响力中的关键作用。研究表明,在科学界和公众传播中,使用不常见数据集组合的论文通常更具影响力,而且即使数据集并没有带来创新性的主题组合,这种高影响力依然存在。研究还揭示了规模较小、经验较少的研究团队更可能使用非典型的数据集组合。这些发现为科学创新引入了重要的数据视角,这对于研究人员与数据管理者都有重要启发。
本周六(11月2日)晚的「面向未来的科学学」读书会邀请到论文一作、密歇根大学博士生喻宇琳,解读这项 PNAS 最新研究。欢迎感兴趣的朋友关注,详情见文末。
论文题目:
Does the Use of Unusual Combinations of Datasets Contribute to Greater Scientific Impact?
论文链接:
https://www.pnas.org/doi/10.1073/pnas.2402802121
数据对于科学和经济进步至关重要。最近十年,学术界、工业界和社会都在努力生产和公开数据集,而数据共享和管理平台也日趋完善,这使得研究者有机会使用越来越多的公开数据集。那这些数据集将会如何影响科学创新呢?重组理论(Recombination)指出了知识的不寻常组合可以导致新的发现和科学突破,这一理论是否也可以应用于科学研究中的数据集使用上呢?
在这项发表于PNAS的研究中,研究者使用大学政治和社会研究联盟 (ICPSR) 的数据来识别研究与数据集之间的引用关系,使用OpenAlex和Altmetric识别过去十年中研究论文在新闻和社交媒体等在线平台上的引用和提及数据,并编制了一个综合数据集,数据集包含了利用超过5,000个不同数据集的30,000多篇论文。基于这一数据集,研究者系统探讨了数据集组合与科学创新的关系。有趣的是,研究结果表明,数据集组合,尤其是非典型的数据集组合,可以显著促进科学研究的影响力。此外,研究还发现,规模较小且经验较少的研究团队会更频繁地在研究中使用非典型的数据集组合。
探讨数据集组合的策略有一个前提,即论文使用了多个数据集。因此,研究者先针对使用多个数据集如何影响文章影响力进行了分析。
该项分析的结果变量是论文的影响力,研究者将其定义为论文在发表后固定年份(3年、5年、10年)获得的引用次数。由于「引用次数」这一结果变量呈现出长尾分布,此处采用负二项回归来建模引用次数与使用多个数据集之间的关系。自变量是一个二元变量,标记了一篇论文是否使用多个数据集(在数据集中,有30,479篇论文仅使用一个数据集,有8,836篇论文使用了多个数据集)。该分析还控制了数据集的使用频率(可能表明该数据集于热门主题的相关性或科学价值)、团队规模、团队经验、学科、发表时间、期刊影响因子等变量。
分析结果如图1所示。从图中可以看到,使用多个数据集的论文相比使用单一数据集的论文,其论文引用次数显著增加(p<0.001),在论文发表后3年、5年、10年其引用次数分别高17.1%、15.2%、14.0%。图1右上角的图显示了在不同时段分析的结果,可以看到,除了在1900年前后(数据较为稀疏)的其他时间段,上述结论均保持显著和一致。
图1 数据集组合对不同时间段引用量的影响效应(基于负二项回归,已标记95%置信区间)
作者使用两种方法对于上述结果进行了稳健型检验。(1)进行回归分析,将“是否使用多个数据集”这一二元变量转为“论文中使用的数据集数量”这一连续变量,结果表明,论文每多使用一个数据集,在发表后3年、5年、10年的引用量分别会高1.4%、1.0%和0.8%。(2)使用无模型稳健型检验,对于使用多个数据集与单个数据集的两组论文进行匹配,并比较匹配后两组论文的引用次数,结果与前面的结论保持一致。
同样使用了多个数据集的论文,其数据集的组合也可能存在不同策略。研究者进一步讨论了「非典型数据集组合」(atypical combinations of datasets)对于研究影响力的关系。
论文数据集组合的非典型性由Rao-Stirling指数评估得出。Rao-Stirling是一个在生态学、信息科学、科学学等领域广泛应用等非典型性度量方法。在本文中,如果一篇论文使用的多个数据集被共引次数较少,则会得到一个较高的Rao-Stirling指数,代表着更高的非典型性(具体计算方式如图2C所示)。当前数据集中,Rao-Stirling指数从0.25到0.92不等,该指数被用作后续分析的自变量。
研究者使用固定效应负二项回归针对至少使用两个数据集的8,836篇论文进行了分析。分析的因变量是论文发表3年后的被引用量。控制变量包括团队规模、团队经验、期刊影响因子、学科、发表时间、平均数据使用频率,以及论文使用的数据集数量。此外,研究者还控制了论文引用期刊组合的非典型性(论文的新颖性)。
图2A呈现了负二项回归的结果,可以看到控制了所有的控制变量(对应图中Full Control)之后,使用非典型数据集组合的论文仍然会显著获得更高的引用量(p<0.001)。数据集组合的非典型性每增加1个标准差(Rao-Stirling指数增加0.13),论文在发表3年后的引用量会增加18.4%。这一结果在不同的引用时间窗口和不同的时间段保持稳健。
研究者进一步分析了非典型数据集组合的使用是否会影响论文更广泛的影响力——在线传播的影响力,包括在知识平台(如Wikipedia)、政策文件、社交媒体(如Twitter)、新闻平台上的传播。如图2B所示,可以看到使用非典型数据集组合的论文拥有更高的在线传播影响力,数据集组合的非典型性每增加1个标准差,论文的Wikipedia的提及次数增加76.0%,Twitter的提及次数增加68.2%,政策提及次数增加44.6%,新闻提及次数增加9%。
3. 非典型数据集组合的高影响力
是来自其独特的主题吗?
但是,现有的分析还面临着另一种解释——非典型数据集组合具有更高的影响力,也许是因为这部分论文组合了具有不同主题的数据集,从而可以探讨一些新的主题,而不仅仅是因为非典型的数据集组合。为了讨论这两种解释,研究者分析了非典型数据集主题组合对科学影响力的作用。
ICPSR的数据集有一套由专家定义的主题,例如“美国生活成本”这一数据集包括了“消费者”、“生活成本”、“经济指标”、“支出”、“家庭”、“住户”、“收入”、“城市人口”和“工人阶级”等主题。这使得当前这项分析成为可能。基于这一数据,研究者使用Rao-Stirling指数来衡量论文使用数据集的主题的非典型性,其定义与数据集组合的非典型性类似,由主题组合的公现频率决定,具体测量方式如图3A所示。
图3B显示了主题组合非典型性(上)和数据集组合非典型性(下)的回归结果,其中数据集组合非典型性的分析控制了主题组合非典型性这一变量。可以看到,在控制了主题组合的非典型性之后,使用非典型性数据集组合的论文依然在发表3年、5年、10年后拥有显著更高的引用量,且这一结论在各种模型设置下保持稳健。而使用非典型性主题组合的论文的引用量也呈现小幅度增高,但是在控制了论文是否是引用量最多的前5%时,这一结果并不显著。
基于上述结果可以得到亮点结论:(1)非典型数据集组合的使用对论文引用量的影响占据主导地位,这一正向影响不受到数据集主题组合的特性影响。(2)数据集主题组合的非典型性只对论文引用量有轻微的正向影响。
图3 数据集组合与主题组合的非典型性对引用率影响的比较分析
研究者最后想回答的问题是,什么样的研究团队会更有可能使用非典型的数据集组合?在这一部分,研究者讨论了团队规模和团队经验两个属性的影响,这两个属性在先前的研究也被证明与创造力和创新有关。图4呈现了这一部分的分析结果,包括团队规模对于使用多个数据集的影响(A)、团队规模对于使用非典型数据集组合的影响(B),以及团队经验的相应影响(C、D)。
从分析结果可以看到,更大规模的团队倾向于在研究中使用多个数据集,但是使用非典型数据集组合的却往往是小规模的团队,此外,经验更少的团队也更倾向于使用非典型数据集。
图4 团队规模与经验对数据集组合及非典型数据集组合的影响
-活动预告-
科学是研究实践、是理性精神,也是一个由学者、文献、科研项目、科学思想与灵感等一起构成的自组织、自生长的复杂系统。科学学这门学科,旨在深入理解科学研究的种种因素并推动科学发展。科学的迅猛发展在积累科学知识的同时,也遭遇诸多社会、伦理、政策问题:开放科学的范式如何影响科学研究的实践?阶层、性别、种族、国家等视角如何揭示科学不平等的起源?期刊编辑和审稿人如何塑造当今的科学活动?科学人口结构、人才激励、科技人才流动如何影响科学发展?AI大模型如何重塑科学研究的各个环节?
为了思考和回应科学的多元化挑战、科学开放性面临的危机,以及新兴技术对科学的冲击,集智俱乐部联合美国匹兹堡大学博士后崔浩川、东南大学副研究员孙烨、田纳西大学信息学院助理教授李恺、纽约大学阿布扎比分校博士研究生刘逢源、南京大学地理与海洋科学学院研究员古恒宇,共同发起「面向未来的科学学读书会」,这是继「复杂系统下的科学学读书会」之后的新一季科学学读书会。读书会从2024年8月25日开始,每周六晚19:00-21:00,持续时间预计8-10周。欢迎感兴趣的朋友报名参与!
详情请见:面向未来的科学学读书会:探索开放科学范式,揭示科学不平等的起源
6. 加入集智,一起复杂!
点击“阅读原文”,报名读书会