导语

仅仅通过一个指标,例如 h 指数,来衡量科学家的学术影响力,这未免是对现实复杂性的过度简化。近日发表在 PNAS 上的新论文“科研影响力的三个维度”,通过中观维度(Meso level)的模型,利用三个指标,分别表示学者的总产出、总影响力以及该学者的幸运程度。该模型为科学学(Science of Science)又增添了新的工具。



论文题目:

Three dimensions of scientific impact

论文地址:
https://www.pnas.org/content/early/2020/06/05/2001064117


1. 如何评价学术影响力

 
现在有一对双胞胎分别跟着不同的导师读博士,哥哥跟着学界权威,毕业时已经发了多篇论文,各篇引用都不少;而弟弟跟着新晋导师,毕业时只完成了一篇论文,但这篇论文却有极大潜力。那我们该如何评价兄弟两人的学术影响力?
 
如果按照 h 指数来看,即某个人发表了有 h 篇论文,每一篇至少被引用了至少 h 次来看,那么哥哥的成就更大。然而这样的评价方式,首先没有考虑到运气的影响,其次,忽略了富者越富的马太效应。
 
在学术界中,一项具有奠基性的研究,会被之后所有的相关研究引用,从而使得这样的文章获得大量引用。例如巴拉巴西提出 BA 模型的论文,就是网络科学中被引用最多的论文之一。这就是在学界被广泛证实的现象,称之为“由过往成功带来的成功”。
 
相关阅读:
什么是无标度网络 | 集智百科
无标度网络模型开山之作:随机网络中标度的涌现

如何在对科研影响力进行评价时,同时考虑到运气和偏好依附(Preferential attachment)的影响,是本文要解决的问题,也是其创新点所在。其文中所提及的用三个指标来评价某领域学者的科研影响力,则是该模型的副产品。


2. 中观视角,

描述复杂问题的新方法

 
传统上的建模,要么是宏观的,从统计指标出发,去找到不同指标间的相关性;要么是微观的,先假设产生该现象的机制,再看什么样的参数能够再现出现实情况。

图1:宏观、中观、微观视角对比

在对学者影响力的建模上,宏观视角是用来找到在不同学科中,论文发表数量和被引用数之间的统计规律;而微观视角下研究主体变得很小,通过巴拉巴西提出的优先连接的机制,或基于主体的模型,其关注的是每篇论文的发表时间及影响力符合何种规律,而没有触及学者的影响力这一方面。

宏观模型描述的是整个学科的规律,微观模型描述的是单篇论文的引用量具有的特征。而中观视角,则介于宏观与微观之间,其研究对象的粒度,是以学者为单位的。而研究方法,则是基于对现象成因的理解,自下而上地用几个参数,来重新发现生活中的数据所具有的特征。

宏观视角下,每篇论文的引用数,经排序之后,会发现其符合指数分布;但这个规律,并不适合单个科学家。采用中观视角后,可以将每个研究者的 N 篇论文,及其各自的引用数,用更少的指标进行描述,并对每个指标给出清晰的解释,这体现了中观视角的优势。

在其它类似的问题上,例如对风险投资及其成功率的建模,也可以采用中观视角。关注各个投资机构,而不是整个行业(宏观)或者每一笔投资(微观)是否成功,其受到哪些因素的影响?这是该文带给读者方法论层面的启发。


3. 模型中的三个组成项及其意义


不同于科学学研究中常用的 APA 数据集,该文的数据来自计算机科学,称为 DBLP。其包含 176 万名研究者,309 万篇论文和 2516 万次引用关系,该数据库还在持续更新中。

在 2020 年最新版的 DBLP 数据库中,已包含 489 万论文和 4556 万次引用关系。其中包含了文章标题,摘要,年份,影响因子等诸多信息,是一份值得深挖的数据集。

数据库中大量引用数过少的论文,会造成模型对长尾效应的过拟合。为避免上述影响,该文关注的只是 h 指数大于 5 的研究者及其发表的论文,以及这些研究者之间的引用网络。

在建模过程中,将每名研究者的影响力,设定为 X,每发表一篇论文,就会增加X所代表的值。其中一部分来自该论文因为运气所获得的引用,一部分源于该论文由于之前的成功所获得的引用,由此,可以得到下面的公式:

而从宏观的角度来看,按照上述的规则模拟,平均来看,给定每个人的总论文数为 N,被引用数合计为 C 以及论文引用中有多少为来自随机性的影响(用 ρ 描述,ρ 为 0 代表引用完全由于随机影响,ρ 为 1 代表该论文的引用完全来自之前的成功)可以推出平均每个研究者预期的 X 值,为下式:

N 和 C 的值,能够从原数据中经简单的统计获得。通过将所有研究者的 X与X^k(N,C,ρ)的差进行整合,可以找到使两者之差最小化的 ρ 值,由此可以使用这三个指标,来描述某个学科论文发表中所呈现的规律。


4. 越成功的研究者,

其受随机性的影响越低


按照发表总论文数,将研究者分为 4 档,分别观察各档科学家所对应的 ρ 值,可以得到下图:

图2:总发文数不同的作者,其引用数呈现不同的规律

图中不同颜色的图形,代表不同档位的研究者,例如绿色代表总论文数在 48-52 篇之间的 2624 名研究者,橙色代表在 95-105 篇之间的 1113 名研究者。图中的每个点代表一篇论文。横轴是论文引用数的排名,纵轴是引用数。

该图指出:越高产的研究者,其论文的引用数就越不平均,对应于该档研究者中拟合的 ρ 值的平均就越大,这说明学术界存在着富者越富的情况。
 
由于总论文数更多的作者,有更大的可能是资深研究者,而他们发表的文章引用数却有很大差异,这意味着对于那些已经发表过爆款论文的研究者,有很大可能其最有影响力的研究已经发表。而这与之前对科研论文引用网络进行的研究所指出的:“成功可能发生在职业生涯的任何一个阶段”可以相互印证。

图3:总产出,总引用数和 ρ 值的关系

上图进一步,将模型中的三个参数的关系展现了出来。其中不同颜色的线代表了,该类作者中,超过 25%,50% 及 75% 的其他研究者的所对应 ρ 值,左图横轴为总论文数,右图为总引用数。

有 30% 的研究者,其 ρ 值为 0,这些研究者大多处于学术生涯的早期,或者其最具影响力的文章还没有出现,从上图的左下角可以看出。

使用该指标,能够更好地评价青年研究者的学术潜力。比如两个 N 和 C 值相同的研究者,ρ 值越高,说明其研究越多地是占坑型的(基于以前研究的扩展型),而不是原创型的。

回到本文开篇的问题,该如何评价一对跟了不同类型导师的双胞胎博士毕业时的学术成就?用单一的指标,总会丢掉一些信息,唯有通过多个指标,才能描绘现实中的复杂性。


5. 未来的研究方向展望


关于这篇论文本身的介绍,就到这里。在研究了该文的数据集后,笔者认为,基于该数据及本文提出的模型,还可以回答如下问题:
 
首先是不同年份的论文,其对应的平均 ρ 值是怎样变化的?是否有一致的趋势?如果 ρ 值越来越大,说明计算机领域真正开创性的研究越来越稀少。类似地,基于关键词可以得出在不同领域,例如计算机视觉,语音识别等对应的平均 ρ 值,并以此判断该领域的原创程度。
 
其次可以看到,处于不同阶段的平均 ρ 值不同的研究者,其科研合作呈现怎样的特征。是不是越是资深研究者的论文,就越有可能是来自大团队,由多名作者合作完成?而那些青年研究者,是否更有可能在小团队中,能够获得更好的训练,从而在未来更加成功?

最后,在微观的层面看,论文的题目和文章的原创性有没有关系?例如是不是题目越短的论文,其原创性越强?还可以根据题目中 review、survey 等关键词找出综述类文章。并比较综述类文章的引用量,是否总是显著地高于该学者论文的平均引用量?这些问题,也可以基于该文的数据进行研究。


作者:郭瑞东

审校:刘华林、曾祥轩

编辑:张爽



复杂系统视角下的科学学

——系列线上读书会开放招募


集智俱乐部读书会是面向广大科研工作者的系列论文研读活动,其目的是共同深入学习探讨某个科学议题,了解前沿进展,激发科研灵感,促进科研合作,降低科研门槛。


“复杂系统视角下的科学学”是一个系列读书会,每次探索科学学中的一个主题,暂定 5 期。每周会有读书会成员按照主题论文列表或结合自己的研究,制作论文解读的 ppt,在腾讯会议软件上进行论文解读和研究分享。

详情请见:
复杂系统视角下的科学学——系列线上读书会开放招募

报名入口:(长期有效)
 

       
第一步:扫码填写报名信息。
第二步:信息填写之后,会弹出对应的负责人微信二维码,截图扫码添加二维码即可。
第三步:添加负责人微信号,支付保证金。
第四步:拉入群聊。

我们也会对每次分享的内容进行录制,剪辑后发布在集智学园的官网上,欢迎大家关注!录播地址,请关注后续推文信息。



推荐阅读


集智科学家PNAS发文:女性科研工作者的退出风险与学术成就
Nature通讯:科学家兴趣转移愈发频繁,但对科研生涯可能不利
105万篇博士论文数据,勾画学术界30年的知识变迁
学术互捧有用吗?46万条引文数据揭示互惠引用的潜在危害
加入集智,一起复杂!






集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

◆ ◆ 

搜索公众号:集智俱乐部


加入“没有围墙的研究所”

让苹果砸得更猛烈些吧!



👇点击“阅读原文”,了解更多论文信息