集智

导语

2019年2月21日的最新一期Nature封面文章,介绍了一项对1954年-2014年期间超过6500万篇论文、专利和软件产品的数据分析工作。研究者量化评估了创新的“颠覆性”,发现小团队更有可能做出突破性的研究。

就像封面图片所示意的,小团队就像特立独行的鲨鱼,大团队就像聚集成群的小鱼,它们共同形成了科学研究的生态系统。科研生态的健康发展,需要各种不同规模的团队。

相关报道

论文题目:

Large Teams Have Developed Science and Technology ; Small Teams Have Disrupted It

论文地址:

https://www.nature.com/articles/s41586-019-0941-9

人类的技术和科学发展史,常常面临重大转型。每一次重大转折中,都会出现引致“颠覆性创新”的团队或个人,其贡献的知识或者技术,不是沿着既有技术发展,而是开辟了新的方向。

随着新的方向逐渐树立,小团队成长为大团队,年轻成员成为资深专家,他们获得越来越多的资源和注意力,要维持越来越多的合作关系,工作日程日趋繁忙,思想决策却日趋保守,形成又一轮的技术锁定,等待着新一轮技术突破的产生。

发展 VS. 颠覆

当今的科研工作重点在于创新,尤其是发表论文的时候,评审团最看重的事情之一是你的论文是否在某一领域有所创新;而研究者也在努力,在某一领域获得创新性的突破。

创新是社会发展进步的源泉,所以我们格外关心创新。

创新是怎么定义的?创新,顾名思义,创造新的事物,创造新的事物分为两层含义,一层是开创了前所未有的事物,第二层表达的是“更新”的含义,即本来存在着一个事物,用另外一个新事物来替代它。这篇文章中提到的创新更偏向于创新的第二层含义,用一种形象的方式定义创新,其实是一个新的事物挡住了旧事物,向日食一样,月亮遮住了太阳,后来的人,只能看到新事物,不能看到旧事物。

“创新”实际上是一个非常模糊的概念,如何测量创新?

集智

引用数与创新度量化

一种创新的想法通常是站在前人的肩膀上往前走了一步,这个“肩膀”可能是巨人的肩膀,也可能不是,很少有人的想法是凭空而来的,我们大部分人的想法都是建立在别人的想法之上的。一些想法的“肩膀”是有迹可循的,而一些则很难找到源头,刚好在科研论文方面,都能找到支撑这篇科技论文的“肩膀”。

评职称时,引用量是作为一个评价指标的,通常学者们会关注引用量,但是这不是创新的评价指标。引用量不等于创新,但是引用结构可以表现创新。

集智

在网络中的测量(创新的)颠覆性。参考资料:Funk&Owen-Smith,2012

图中较大的盘子表示引用你的论文,我们把论文的引用结构划分为三种,分别用绿、红、蓝颜色方框表示。

  • 第一种结构是绿色方框,表明引用者既引用你的论文i也引用了你的参考文献j;

  • 第二种结构是红色方框,引用者只引用了你的论文i;

  • 第三种结构是蓝色方框,引用者只引用了你的参考文献j。

红色与绿色出现的概率之差,就是量化后的“创新性”,该值越接近于1,论文创新程度越高。

单单从引用的绝对数量出发考虑创新性,其实是不够合理的,准确的来说,它只能说明你的文章有多流行,而使用引用结构却能够挖掘出你文章中更深的含义。这个创新评价指标的定义可以帮助我们重新思考很多问题,包括政策的制定、基金的申请、职称的评定等等。

引用树与创新指标值(Disruption)

树能够帮助我们更形象生动的理解创新。树的枝叶高度表示引用该论文的时间,枝叶形状表示不同的引用结构。

集智

颠覆性创新”可视化“:用引用树结构展示颠覆性创新程度

  • 如果既引用了你的论文也引用了参考文献,在引用树上则展示为枝叶曲线向下垂

  • 如果只引用了你的论文,引用树中的枝叶曲线向上翻

  • 树的根部越长,说明引用参考文献越老,根部的形状同样也展示了你论文的引用结构。

根据创新指标值(Disruption),将三篇影响力相似的论文以“引用树”的形式表现出来,说明创新指标是如何区分不同科技贡献的。

集智

三种不同结构的论文“引用树”

图中的A树表示Bak,Tang和Wiesenfeld于1987年提出沙堆模型的论文,引用量3433,这篇论文首次提出了“自组织”的概念,可以说是开创型的论文。

B树是一篇验证型的论文,于1995年发表,引用量3269,是维曼因在碱性原子稀薄气体中验证了玻色爱因斯坦凝聚态的论文,由此维曼因获得了诺贝尔物理学奖。但是引用这篇文章的论文,通常也会引用该论文的参考文献,因为它是一个验证型的论文,所以该论文的创新指标值不高。

创新指标值不高是否就意味着否认物理等验证型学科对社会发展的贡献?当然不是,不同学科之间的引用结构是不同的,在比较不同的论文时,需要控制了论文的类型,区分实证论文与理论验证论文两种类型。

C树是一篇关于宇宙学的文章,发表于1999年,这篇论文的引用量相较最高。

如果枝叶向上翘起的越多、越高,论文的创新性越高,可以看出A与C的论文创新度更高。B图更多的是发展性,而非颠覆性的创新工作。

这里为了介绍不同结构的论文,所以将这三张图放在了一起。如果要更加合理的比较论文的创新性的高低,除了要控制论文的类型,还需要控制比较的对象引用量是相近的,或者说控制文章发表的时间,50年代的文章与90年代的文章引用量显然是不同的。

小团队PK大团队

小的团队还是大的团队更擅长创新?大团队研究问题,大家都有很多想法,互相抵消之后,会产生中庸的想法,如果在小团队,研究的问题非常集中准确,对问题的研究可能要深入。当然,这只是猜想,需要进一步的实证。

著名的物理学家,爱因斯坦,是一个小团队,他提出了一个关于引力波的问题,在100年间,有1000个科学家回答了他的问题,促进了物理学的发展。那能不能提出这样一种想法:“创新就是提出问题?”

为了在大规模的数据中检验假设,这篇文章采集了大量不同种类的数据,首先是Web of Science数据库中在一百年(1915-2015)中记录的四千四百万论文数据、其次是美国专利数据库中在四十年(1975-2015)中记录的五百万专利数据、以及GitHub数据库在三年中记录的一千六百万开源代码的数据,数据涵盖了人们在科研、技术、开源代码三个领域非常不同的组织关系,知识生产方式的行为,这使得关于这个问题的思考更站得住脚。

集智

论文、专利与软件的团队规模与其

创新颠覆性被引数量的关系

(A-C)对于研究文献,专利和软件开发而言,平均引用数随着团队规模增加而增加,而创新颠覆性随着团队规模增加而减少。95%的置信区间显示在灰色区域内。

(D-F)与(A-C)基本相同,只不过是极端情况下的变化。观察到文章、专利和软件产品的高影响力会随着团队增大而增多,而颠覆性创新会减少。

(G-I)表示团队规模与参考文献引用之间的关系。参考文献的流行度中位数(引用数)随着团队规模增大而增加,而参考文献平均年份随之而减少。

(J-L)与(G-I)基本相同,只不过是极端情况下的变化。软件开发行业有着引用度非常高的代码库,所有头部25%的引用流行度而不是头部5%的流行度。

随着团队规模的增大,团队引用最新的论文越多,而引用历史较久的经典论文却比较少,由此我们得出结论:大团队偏向引用新文献,捕捉流行的研究。小团队在研究过程中,对过去的文献追溯更深,思考深入,从而提出新想法,实现“颠覆性”的创新。

小团队在创造新的方向,而大团队在发展这些方向,换个说法是小团队擅长提出问题,大团队擅长回答问题。小团队创造一个方向,等待有人发现、赏识他的想法与创新并把它发扬光大,但很可能在等待的过程中,这个团队就消失了,这也是为什么现在创业不易的原因之一,而大团队收割目前已有的注意力流,沿着已经被验证过的好方向去挖掘。

大团队和小团队的问题,每一个深处团队中的人应该都会有自己的体会。我们总是需要和各种各样的人建立联系,组成团队,形成社区。

集智

集智

该研究中引文网络可视化的另外两个版本

结语

科学的本质就是一轮一轮的遗忘和一代一代的记忆。大浪淘沙,没有被时间和人类遗忘的就是真正的科学。小团队在记忆,而大团队在遗忘。

在大海上,大的轮船在风浪中也许会更加稳健和安全,但小的帆船却能够更加灵活,或在危险时快速调转方向,或穿越峡谷欣赏不一样的风景。

坚持和孤独,才是创新者的姿态。

希望这篇文章可以鼓励孤独的创新者们继续前行。

作者:徐绘敏、徐壬捷

编辑:王怡蔺

推荐阅读

该论文第一作者吴令飞是集智科学家,集智-凯风研读营学者,腾讯研究院×集智俱乐部AI&Society第三期讲者。第二作者王大顺是美国西北大学凯洛格商学院、复杂系统研究中心副教授。通讯作者 James A. Evans 是美国芝加哥大学社会学系教授,知识实验室主任,腾讯研究院×集智俱乐部AI&Society第十二期讲者。

集智

James A. Evans 芝加哥大学社会学系教授,曾作为主讲嘉宾出席 腾讯×集智 AI&Society 学术沙龙(点击图片可阅读详情)

集智

吴令飞,芝加哥大学知识实验室博士后,香港城市大学博士,曾作为主讲嘉宾出席 腾讯×集智 AI&Society 学术沙龙(点击图片可阅读详情)

集智

王大顺,美国西北大学副教授。曾作为嘉宾,在集智俱乐部等主办的人工智能与公共政策研讨会上做报告(点击图片可阅读详情)


集智

集智俱乐部QQ群|877391004

商务合作及投稿转载|swarma@swarma.org

搜索公众号:集智俱乐部

加入“没有围墙的研究所”

集智

让苹果砸得更猛烈些吧!

原文始发于微信公众号(集智俱乐部):集智