导语


科学家什么时候能够迎来事业巅峰?科学创新的生命周期是多久?职业生涯中出现突破性进展的迹象是否存在?什么样的合作会带来成功?年轻的科研人员如何将成功概率最大化?这些都是科学学(the science of science)正在探索的问题。当我们把科学视为一个复杂系统来研究,会有令人兴奋的洞察。

由王大顺(美国西北大学凯洛格商学院教授、科学与创新科学中心创始主任)和Albert-László Barabási(美国东北大学复杂网络科学中心主任、无标度网络模型提出者)合作完成的新书《给科学家的科学思维》The Science of Science中文版于近日上市。本书中译版由贾韬(西南大学计算机与信息科学学院教授)和汪小帆(长江学者特聘教授、上海大学副校长)完成翻译。


《给科学家的科学思维》结合了复杂系统、网络科学、大数据、机器学习等方法,对科学学领域的前沿问题做了系统的介绍,展示了对科研创新发展规律与科学家职业生涯路径的最新认识,推荐给所有科研工作者。本文节选自原书第18章。


同时,集智俱乐部正在组织集智计算社群,集思广益、用新的idea和新的技术,探讨计算科学技术、科学学与复杂系统研究的结合,并以专栏、项目等形式呈现。详情见文末。

王大顺、AL. Barabási | 作者

贾韬、汪小帆 | 译者

邓一雪 | 编辑



如果我们假定,一篇论文的科学影响力大致可通过对它的引用量来体现,那么影响力分布的肥尾形态遗憾地表明,大多数论文几乎没有任何影响力。实际上,仅有极小部分的文献会影响某一领域的发展。正如前一章《适应度,最终决定论文影响力的高低》所展示的,某些创意能产生重大影响,高适应度在其中起到了关键作用。但什么因素能预测高适应度呢?怎样才能把科研成果的影响力发挥到极致呢?本章将关注两个不同因素在其中的作用,它们分别是论文的内部因素和外部因素,即创新和宣传。





创新的涌现和科学影响力的关系




虽然影响某篇论文的适应度的因素有很多,然而有一个因素尤为受关注,那就是创新。创新究竟是什么?我们怎样衡量科学创新呢?创新会增强或者损害论文的影响力吗?


对创新的衡量


正如第3章《成功孕育成功,科学声誉的马太效应》所述,新的创意通常综合了现有的知识。例如,很多发明往往通过整合已存在的创意或过程,进而创造出具有原创性的东西(见图1)。汽船是帆船和蒸汽机相结合的产物,而世界上第一辆汽车,奔驰专利1号,则由一辆自行车、马车车厢以及一个内燃机组成。即使是你口袋里的智能手机,也只是组合了许多先前存在的部件和特征:内存、数字音乐、移动电话、互联网接入以及轻量型电池。


图1新的创意往往是现有创意的原创性组合
建造于1885年的奔驰专利1号车被视为世界上生产出来的第一辆汽车。卡尔·本茨(Karl
Benz)在1886年1月29日为该车申请了专利,它的德国专利号是37435。奔驰专利1号车结合了三项已经存在的创意:自行车、马车车厢和内燃机。


新发明往往由现有技术重新组合而成,这一理论在对美国专利的分析中也得以证实。美国专利局通过使用统一的技术编码方案,按照类和子类对每一项专利进行分类。比如,苹果公司的产品iPod曾取得一项原创专利[US20030095096A1],其中史蒂夫·乔布斯也为其发明者之一,它的类-子类编码对是345/156,这表示它是由345类(计算机图像处理和选择性视觉显示系统)和156子类(显示外设接口输入设备)组成的。研究人员分析了1790-2010年所有的美国专利,发现在19世纪,美国颁发的近一半专利属于单编码发明,即应用单一技术而不是整合多技术领域的发明。与此相对的,当前90%的发明至少组合了两个编码,表明现在的发明越来越成为一个组合的过程。


发明创造具有组合性,这一视角为我们提供了一种科学创新的量化方式。的确,科学论文从众多的期刊中选择参考文献,这些期刊指明了创意源自哪一领域。有些组合是意料之中的,而另外一些则很新颖,偏离了常规思路。


如果某篇论文引用了两种很少同时出现的期刊,这可能意味着该论文提出了一个基于已有研究的新颖组合。以《生物化学杂志》Journal of Biological Chemistry刊载的一篇2001年的论文为例,该论文确认了一种与已知的抗精神疾病药物相互作用的蛋白质,并利用这一发现确定了其他生物效应。它的文献列表首次囊括了两种期刊《基因表达》(Gene Expression和《临床精神医学杂志》Journal of Clinical Psychiatry,表现出一种基于先前知识的创新性组合。与此同时,这篇论文频繁引用的其他期刊,如《生物化学杂志》和《生化杂志》Biochemical Journal,也在其他文献中被同时引用,这种传统搭配反映了该领域内的主流思想。


创新悖论


从一系列广泛调查中获得的证据一致表明,科学出版物或者专利发明中不常见的组合,通常意味着论文或发明有更高概率获得高影响力。换句话说,伴随创新而来的,还有不断增加的能够一举成功的机会。这个发现也证实了跨学科研究的一个关键前提——通过组合先前毫无关联的构想和资源,不同领域和思维方式得以交互作用,最终形成了富有成果的发现。


虽然新颖的创意常常带来高影响力的成果,但它们同样也可能导致较高的不确定性。事实上,极其新颖的创意和组合既可能带来突破性进展,也可能带来失败。例如,对超过17000项专利进行分析后发现,合作者专业领域之间的差异越大,其结果的波动性越大;差异巨大的专利会比普通专利有更大的不确定性,或者产生突破,或者导致失败(见图2)


图2. 专利中的多学科合作
当发明者之间的合作更具多学科特点,他们专利的整体质量会有所下降。但多学科合作增加了结果的不确定性,意味着失败和突破都更有可能。


同样,如果某篇论文的参考文献中包含新颖的期刊组合,那它们就更有可能成为该领域内引用排名前1%的论文。但同时,它们也承担更大的风险,可能要花更长的时间才能开始累积更多引用。在学术界产生(或无法产生)何种创新方面,创新固有的较高风险可能起着关键作用。例如,在生物化学领域,研究无人涉足的一对化合物之间的化学关系,比起关注研究得已经很透彻的化合物就更具创新性,而且这样的策略的确更有可能获得较高的影响力。但是,探索这种以前无人尝试的组合,失败的风险也非常高,正如一项分析所评估的那样,这额外的奖励似乎不足以成为冒险的理由。


新颖的创意在影响力上的高变数,可能源自人类对创新的偏见。对科研基金申请的分析显示,在研究工作真正实现之前,科学家们对创新的概念往往持有偏见。在美国一所一流的医学院里,研究人员随机指定142名世界级的科学家评审15份科研基金申请书。与此同时,研究人员计算了每份申请书中罕见的关键字组合出现的次数。例如,包含“Ⅰ型糖尿病”和“胰岛素”关键字组合的申请较为常规,而包含“Ⅰ型糖尿病”和“斑马鱼”的申请,则呈现了一种文献中少见的新颖组合。但是,较新颖的申请在评估时,会或多或少更受青睐吗?研究人员发现,相比创新性不那么高的申请,创新性高的申请获得的分数整体偏低。即使是名义上的“跨学科”项目也避免不了类似的偏见。一项研究对一个澳大利亚基金项目收到的全部18476份申请书进行了分析,包括申请成功的和申请失败的,研究人员查找并界定了每份申请中出现的不同学科领域的具体数量,并以这些领域之间的学科距离对每份申请进行加权。结果显示,研究计划的跨学科性越强,获得资助的可能性越低。


这就使我们处于一种矛盾的境地。很显然,创新对科学来说是必不可少的,新颖的构想理应获得高分。然而,基金申请中观察到的对创新的偏见则表明,具有创新精神的科学家往往一开始就难以获得验证这些创新思想所必需的资助。而且,即使他获得了资助,新颖的创意也比平庸的构想更有可能失败。


怎样才能改善这种矛盾呢?最近的研究提供了一个重要见解:平衡好创新与常规。想想达尔文,他专门在《物种起源》的第一部分叙述有关狗、牛和鸟的选育这类非常传统、被广泛接受的知识。他的这种方式揭示出许多取得重大影响力的高适应度构想所拥有的一项基本特征:它们往往立足于先前研究成果的传统组合,同时也融入迄今为止还未被组合的、非典型的知识。研究人员在分析了1 790万篇包含所有学科领域的论文后发现,相比于普通论文,那些既能推出创新组合,同时又能继承传统研究成果的论文,其成功的概率至少高出两倍。这些结果表明,当创新性与熟悉的传统思维结合起来时,它就会特别具有影响力。





报道可以提升你的“能见度”




媒体报道会扩大论文在科学上的影响力吗?我们是否更可能引用大众媒体报道过的论文呢?为了回答这些问题,我们来看一家主流新闻媒体《纽约时报》。


由于涉及人类健康的论文通常会引起大众的兴趣,研究人员在一项研究中,关注在《新英格兰医学杂志》New England Journal of Medicine上发表的论文是否会被《纽约时报》报道。他们比较了在该杂志上发表的论文被《纽约时报》报道和没有被《纽约时报》报道时,两者的引用量。总体来说,被《纽约时报》报道过的论文在第一年所获得的引用量,比没被报道的那组论文高出了72.8%。


但是,我们能够将这一巨大的影响力差异归结为《纽约时报》的报道吗?《纽约时报》有没有可能只报道一些优秀的论文,而它们即使未被报道也能获取同样多的引用?一项自然实验帮助研究人员找到了更加明确的答案。《纽约时报》员工在1978年8月10日至11月5日经历了12周的罢工,在此期间,该报继续刊印,但缩减了版面,仅作为一种“记录版本”留存,并未公开发行。也就是说,在罢工期间,报社继续安排了它认为值得报道的文章,但读者却并不知道这些信息。研究人员发现,引用优势在此期间完全消失,那些被《纽约时报》挑选出来准备报道的文章,在引用量方面并不比没被挑选的文章表现更好。因此,吸引眼球的论文所具有的引用优势,不能仅仅解释为它们有更高的质量、新颖性,或者大众吸引力,媒体报道本身也是原因之一。


要理解为何媒体报道有助于提升引用量并不难。媒体报道扩大了受众对于信息的接触范围,潜在地使更广泛的研究人员得以获知相关发现。它也有可能充当一种认证标志,增强了论文在学术群体中的可信度。但也许最根本的原因还在于,媒体报道往往是报道好的消息。确实,电视台或者报刊无意对科学问题进行查证或保持平衡的态度,当媒体选择利用有限的播出时间或笔墨来报道某项科学研究时,它通常是把被视作真实的、有趣的以及重要的发现展示出来,毕竟,如果它们不具备这些特点,为什么还要浪费观众和读者的时间呢?


媒体只对科学进行正面报道,这会严重影响公众对科学的认知。但是,用于确保科学研究准确和诚实的制衡机制,是由科学家来维护的。科学批评和反驳以多种形式出现:一些仅对原始结论提供不同的解释,另一些则可能对部分研究提出反驳。多数情况下,反驳旨在凸显已发表论文的实质性缺陷,充当这些科学研究通过同行评审之后的第一道保险。在这一点上,我们似乎终于有了一种负面宣传。但这些批评和反驳会降低论文的影响力吗?如果有的话,又有多大影响呢?


对论文的有效性提出质疑的评论,往往会被视为“负面引用”,表面上好像使原论文在科学同行的眼中变得不那么可信了。因此,我们可能觉得这类论文的影响力会下降。然而,研究结果显示的情况恰恰相反:受到评论的论文不仅比未受评论的论文引用量更高,还明显更有可能成为期刊中引用量最高的论文之一。


对负面引用的研究发现了同样的结果。负面引用是指明确提出先前研究的局限、不一致,或存在缺陷的文献参考。利用从《免疫学杂志》Journal of Immunology提取的15 000条引用制作的训练数据集,并且在5位免疫学专家的帮助下对这些引用加以“负面”或“客观”的分类标注,研究人员运用机器学习和自然语言处理技术识别负面引用。他们分析了这个期刊的15731篇论文,发现负面引用仅仅对论文长期积累的总引用量造成了轻微的影响,随着时间的推移,受批评的论文继续获得引用,最后表明,受到负面关注比默默无闻要好得多。


总之,这些结果表明:评论和负面引用起到的作用似乎与它们的本意相反;它们成了论文影响力的早期信号。为什么这样的负面报道反而会提升论文的影响力呢?


主要原因是选择效应:科学家往往不怎么愿意花时间,为说服力不强的和无关紧要的结果撰写评论。因此,只有具有潜在重要性的论文才会首先引起足够的关注从而获得评论。另外,虽然评论和负面引用是批评性的,但它们往往会对结果提出更加细致的理解,更进一步探讨论文所述观点,而不是简单地否定其关键发现。再者,评论还会为论文带来关注,进一步提高它的知名度。看起来,即使在科学界,负面新闻也是新闻。


集智计算社群欢迎你的加入!


我们是集智算法组,为集智俱乐部公众号/集智斑图/集智学园/集智百科等产品提供算法支撑和服务。目前的算法开发范围包括而不限于文本分析、术语和概念挖掘、引文网络分析、科学影响力评价、推荐系统、图神经网络等。我们在集智社群的知识和科技氛围中成长,也将成果反哺于集智社群。如果你是算法爱好者并对上述某个算法分支感兴趣,欢迎加入我们组织的集智计算社群;如果你有其它用科技赋能集智的好点子,期待你的分享。


微信加入集智计算社群请扫码:


实习生简历请投至huqiao@swarma.org



推荐阅读



点击“阅读原文”,加入集智计算社群