导语


假阳性,从字面可知是不准确不真实的。在医学方面,假阳性是指实际上并没有病患症状却出现误诊。在科研上,假阳性指研究指出在统计上存在显著意义,但实际上经不起推敲。近日,发表在 Nature Human Behaviour 上的一篇论文,从实验室的效能及付出的努力、复制前人工作的成本以及该领域有多大程度能改进假设选择等方面进行分析,揭示了好的科研均衡出现的条件。作者称之为“好科学的自然选择”。

胡一冰 | 作者

邓一雪 | 编辑


期刊来源:Nature Human Behaviour

论文标题:

The natural selection of good science

论文网址:

https://www.nature.com/articles/s41562-021-01111-x




1. 假阳性科学层出不穷




有充分证据表明,在某些领域,研究的大部分结果可能是错误的,而重要原因之一是“研究者的自由度”,如研究设计、测量和报告的灵活性,都有可能导致较高的假阳性(false-positive)研究率。假阳性研究的推广必然会导致人们对于科学的质疑,所以不少研究者为此付出大量人力、物力、财力来进行大规模重复性研究。

 

不过又有研究表明,复制以往的工作不足以缓解假阳性研究率上升的趋势,一些研究者开始呼吁更多地将关注理论作为恢复“健康”科学实验的关键点,但理论是否或如何减少假阳性研究率,尚无正式的研究框架。此外在科研的文化进化(Cultural evolution)中,被用于质疑复现价值的模型主要是通过模拟来研究的,并没有系统的数学分析。近日,发表在 Nature Human Behaviour 上的一篇文章致力于解决这两个突出问题。


图1. 假阳性是指因为种种原因把不具备阳性症状的人检测出阳性的结果。假阳性研究的发表导致引用该研究的后续成果都建立在错误的基础上,导致巨大的人力、物力、财力浪费。





2. 努力和效能有助于降低假阳性率




该研究建立了针对科研的文化进化框架,使它们能够在实证检验之前,以一定的代价识别出更有可能是正确的假设,从而降低假阳性研究率。实验室怎样才能变得更好呢?该研究给出了两种基本方法:

 

图2. 从努力和效能两方面入手有助于实验室创造更好的科学

 

第一,实验室可以花费更多的努力(effort),这意味着(在其他条件相同的情况下)实验室选择的假设具有更高的先验正确概率,同时,实验室在检验假设时更加保守。增加的努力与理论工作有关,选择的假设有更大的先验可能性是正确的。

 

第二,提高实验室效能(efficacy),譬如开发出更有效的方法,这意味着(在其他条件相同的情况下)阳性结果的比率会增加。例如,提高技术效力、更高的测量精度、更大的样本量或仅仅是更多的资金有关。相较于前人的工作,该研究在“效能-努力模型”是上做出重要改进:减少假阳性所花费的努力也有减少真阳性的效果。





3. 扎实的理论研究为好的科学奠基




在这里,理论研究被广泛地解释为包括任何在实证调查之前识别出更有可能是正确的假说的活动。各种各样为理论付出的努力,其作用是在实证检验之前筛选出可能正确的一组假设。当实验室无法通过努力改进假设选择时,科学就会发展到这样一种状态:实验室简单地把所有新提出的假设都贴上“真”的标签,这就是糟糕科学的进化。相反地,好的科学被定义为在实验室科研文化进化中保持接近技术最小值的假阳性率的平衡状态,也就是力所能及范围内能达到最低假阳性状态。


图3. 努力、效能与理论假设如何影响科学的进化?

 

图3表示在没有复现的情况下,100个实验室竞相发布阳性结果。其中蓝色虚线代表实验室效能,实蓝线代表真阳性率,红线为假阳性率,绿色为实验室付出的努力。图3子图a和b表示,当仅有弱假设或仅有强假设可用时,实验室效能增加,努力程度下降,此时“科研种群”进化到一个恶性科学平衡,因为真阳性和假阳性都将进化到1,也就是说所有的假设都将被标定为真。图3子图c表示当实验室需要在弱假设和强假设之间进行抉择时,其努力和效能都会增加,从而一个稳定的好科学均衡出现,此时假阳性率接近最小值。正如上图所展示的,仅仅是花费精力去寻找更强有力的假设的行为就足以稳定良好的科学。

 

投入更多努力是有益的,重要原因之一就是更多的努力导致更大的概率选择一个真正强有力的假设来检验实验。一旦达到良好科学的平衡后,减少努力的付出往往会降低总体成果发表率,因为假设先验真实性更低,实验室仍然投入精力去评估每个假设的准确性,这样他们势必会发现更多的错误假设,从而降低了发表率。这种反向减少努力的现象足以使良好的科学稳定下来。

 




4. 复制与理论协同以维持好的科学




在任何经验实验之前进行扎实的理论工作可以引导低假阳性率的良好科研的进化,该研究同样也考虑复制以往的研究对科研演变的影响。复制可以通过重新测试已发表的成果并发现假阳性来助力淘汰糟糕的科学。通过对发表假阳性成果的实验室施加干预或制裁,复制能减少实验室不付出努力、进行严格测试就把新结果懒散地标记为真实结果的动机。

 

图4.复制和理论的协同作用。子图a表示在没有复制的情况下,真(蓝色)和假(红色)阳性率增加到统同一程度,而努力(绿色)下降到最小。子图b中以较低的速率发生复制时,努力随着时间的推移而增加,达到一种良好的科学平衡,在这种平衡中假阳性率大大降低。

 

研究也发现,当实验与理论紧密结合且复制速度较低的情况下,良好的科学得以维持。如图4子图a表示在没有复制的情况下,真(蓝色)和假(红色)阳性率增加到统同一程度,而努力(绿色)下降到最小。子图b中以较低的速率发生复制时,努力随着时间的推移而增加,达到一种良好的科学平衡,在这种平衡中假阳性率大大降低。

 




5. 好的科学实验经得住理论研究




这项研究从发表成果的奖励、该领域对真假阳性率的技术水平、复现前人工作的成本以及该领域有多大程度能改进假设选择等方面进行数据分析,描述了好的科研均衡何时会出现。这项研究的结果强调了理论努力(theoretical effort)在科研中的作用。

 

该篇文章中指出,就方法论而言,稳定的好科学取决于一个领域沿着三条坐标轴发展:

第一,一个领域必须取得足够程度的技术水平和向好的科研发展。换句话说,如果就算付出大量努力也不能降低假阳性率,那么良好的科学就一定无法维持。

第二,实验室必须有足够的能力区分强假设和弱假设。也就是说,如果一个领域还没有足够效能来利用理论来选择更强的假设,那么好的科学就无法维持。

第三,当实验室进行复制时,良好的科学就可以稳定下来。

 

在研究的最后,作者们为当下的科学研究提出了四个建议以发展良好的科学文化。

 

(1)将资源投入到建立一个健全的理论框架中。
(2)复制,但不依赖复制以往的研究。
(3)更好的方法可以弥补平庸的理论。

(4)糟糕的科学总是一种危险。

 

科学,尤其是自然科学,最重要的目标之一就是追寻科学本身的原动力。同时,科学的这种追求精神本身,又成为社会发展和人类进步的一种基本推动。竭尽所能探寻科学的真相,做真实而使用的研究或许才是对科学最好的尊重。



复杂科学最新论文


集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:



推荐阅读



点击“阅读原文”,追踪复杂科学顶刊论文