43.1万项研究背后：科学新闻是否夸大了科学发现的确定性？

2022-05-24 2,107 0

导语

确定性和不确定性是科学传播的基础。在公众印象中，科学新闻似乎常常会夸大一些科学发现。但事实果真如此吗？期刊论文和科学新闻对同一研究发现的确定性的表述存在怎样的差异？我们知道，在句子中加入“可能”“大概”等模糊性词语会减弱确定性，精确的数字则会增加确定性。然而，确定性实际上是非常复杂的结构，包含不同方面的确定性。一项最新研究使用包含2167个注释的科学发现的数据集，对科学传播中句子层面和方面层面的确定性进行度量，发现模糊限制语和确定性之间只有适度的相关性。对43.1万个科学发现的分析表明，相比于期刊论文，科学新闻通常并不会夸大科学发现，而是会淡化科学发现的确定性。

集智俱乐部组织的「计算社会科学读书会」已经启动报名，将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合，并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会6月18日开始，持续8-10周，详情见文末。

研究领域：NLP，科学学

Pei and Jurgens | 作者

李倩倩 | 译者

梁金 | 审校

邓一雪 | 编辑

论文题目：

Measuring Sentence-Level and Aspect-Level (Un)certainty in Science Communications

论文链接：

https://arxiv.org/abs/2109.14776

确定性和不确定性是科学传播的重要组成部分。然而，在语言学和科学传播研究中，如何对确定性建模一直是一个具有挑战性的问题。本研究旨在回答以下问题：（1）模糊限制语是否是衡量科技文本确定性的一个好指标？（2）如何在科学传播中建立确定性模型？（3）科学发现的确定性在科学传播中是否会发生变化？（4）什么因素会影响新闻和摘要中科学发现的确定性？

在这项研究中，我们创建了(i)一个新的数据集和方法来衡量科学发现的确定性，以及(ii)一个用于确定性预测的NLP模型。我们将该模型应用于超过43.1万个科学发现，研究了科学传播中的一系列研究问题。

图1. 确定性是一种多维度的结构。一个科学发现的确定性可以从句子层面的描述中感知，但科学发现可能包含不同方面的确定性。

我们的分析表明：1)模糊限制语不能完全捕捉科学发现中句子层面和方面层面的确定性（aspect-level certainty）；2)通过超过6000个来自新闻和摘要的配对发现，新闻发现的句子层面确定性较低，这与现有研究认为记者倾向于使科学听起来更确定相矛盾；3)论文摘要的发现因期刊影响和团队规模而异：低影响力的期刊和大型团队通常以更高的句子层面的确定性呈现科学发现。然而，这种模式在科学新闻中并不存在。

1. 模糊限制语不能完全捕捉

句子层面和方面层面的确定性

模糊限制语被广泛地用作语言不确定性的代名词。然而，模糊限制语是否能够完全捕捉句子层面和方面层面的确定性仍然不清楚。基于注释数据，我们的研究首先检验了模糊限制语在多大程度上可以解释科学发现中确定性的差异。将句子层面的确定性与模糊限制语的数量进行比较（图2上），结果表明，模糊限制语和确定性之间只有适度的相关性，皮尔逊r=0.55，尽管它们被广泛用作指标（proxy）。例如，“需要进一步研究以了解这是否是因果关系”不包含任何模糊限制语，但明确表达了对因果关系的强烈不确定性，这表明许多确定性的描述不能被简单的基于模糊限制语的词典很好地捕捉到。

此外，作者在描述确定性的不同方面时，使用模糊限制语的频率各不相同（图2下）。这种分布上的差异表明，模糊限制语作为获取各方面不确定性的指标效果较差。

图2. 模糊限制语和确定性之间只有适度的相关性

2. 不同方面确定性

对整体句子层面的确定性有不同影响

在科学发现中，不同方面可以有不同的确定性。不同方面的确定性对整体感知的句子层面确定性的贡献是否相同？答案是否定的。基于标注后的数据，我们计算了当每个方面都是确定/不确定时的相对句子层面确定性。如下图所示，关于“可能性”（Probability）和“建议”（Suggestion）的不确定性与句子层面确定性的急剧下降有关。然而，关于“数量”（Number）和“程度”（Extent）的不确定性只与句子层面确定性的小幅下降有关。简而言之，科学发现的整体确定性主要受“可能性”和“建议”的影响，而受“数量”和“程度”等其他方面的影响较小。这一结果表明，对各方面的描述在如何有助于对科学发现的整体确定性的感知方面有所不同。

图3. 方面确定性对句子层面确定性有不同影响

3. 在科学传播中，

记者实际上可能淡化科学发现的确定性

长期以来，科学新闻是否让科学听起来更加确定，一直是一个重要但未得到解答的问题。我们的模型能够在科学传播中发现并检验这个问题。回归分析表明，新闻描述的句子层面确定性低于同一发现的摘要描述确定性 (p<0.01)。尽管一些研究表明，科学新闻倾向于消除模糊限制语，以更确定的方式描述科学发现，但我们进行了成对检验，研究发现结果恰好相反：与摘要中的发现相比，新闻中的发现不太确定，即使在控制内容和许多语境因素的情况下依然如此。

对方面层面确定性的进一步分析揭示了这一现象背后的机制：摘要中的发现与更多关于“框架”（Framing）和“数量” 的确定性有关。新闻中的发现与“可能性”“程度”和“数量”的不确定性相关，表明记者倾向于淡化某些方面的确定性，尤其是在数字信息方面。

图4. （上）科学新闻的句子层面确定性比论文摘要低；（下）科学新闻倾向于淡化“数量”（Number）和“框架”（Framing）方面的确定性。

4. 影响力低的期刊通常

以更高的句子层面确定性呈现科学发现

期刊的影响因子长期以来一直被认为是与科学质量相关的核心因素之一。当发现出现在具有不同影响因子的期刊中，是否以不同的方式呈现确定性？答案是肯定的。如下图所示，影响力较低的期刊中的研究结果具有最高的确定性，而出现在影响力相对较高的期刊中的发现则以相对较低的确定性进行描述。

对这一现象的一个可能的解释是，发表在审查流程更严格的期刊上的高质量论文更准确地呈现确定性，这导致与低影响期刊的发现相比总体确定性较低。作为比较，记者撰写的研究结果的确定性与期刊影响因子没有显著相关性，这表明期刊的声望并不影响记者呈现科学发现的方式。

图5. 期刊影响因子越小，科学发现的句子层面确定性越高

5. 大型团队通常

以更高的句子层面确定性呈现科学发现

在团队科学的时代，人们发现团队规模与科学的许多核心方面有关，包括质量和影响力。科学确定性的呈现是否也随着研究团队的规模而变化？答案是肯定的。使用我们的数据和模型，我们发现作者数量与科学发现的总体确定性水平之间存在线性关系，即使对领域和作者进行参数控制也是如此。多种机制可以解释这种行为。由于更多的个人参与和检查结果，或者由于团队科学中能够进行规模实验，更大的团队本身可能更有能力产生更多确定的结果。此外，我们的结果也与之前的发现相联系，即小团队更容易产生新的颠覆性想法，大团队则倾向于开发旧的、现有的想法，因为新想法通常与更多的不确定性相关。

然而，这种线性趋势在科学新闻中并不持续。相反，科学新闻中发现的句子层面确定性在不同数量的作者中保持相对稳定。虽然已发现团队规模与科学的新颖性和影响力有关，但我们的研究结果表明，记者在描述发现的确定性时很大程度上不受研究团队规模的影响。

图6. 作者数量越多，科学发现的句子层面确定性越高

作为论文的一部分，带注释的确定性数据集、代码和用于确定性预测的微调模型，以及论文中使用的科学新闻和论文摘要的URL，都可以在以下链接获得：

https://jiaxin-pei.github.io/project_websites/certainty/Certainty-in-Science-Communication.html

计算社会科学读书会第二季

计算社会科学作为一个新兴交叉领域，越来越多地在应对新冠疫情、舆论传播、社会治理、城市发展、组织管理等社会问题和社科议题中发挥作用，大大丰富了我们对社会经济复杂系统的理解。相比于传统社会科学研究，计算社会科学广泛采用了计算范式和复杂系统视角，因而与计算机仿真、大数据、人工智能、统计物理等领域的前沿方法密切结合。为了进一步梳理计算社会科学中的各类模型方法，推动研究创新，集智俱乐部发起了计算社会科学系列读书会。

新一季【计算社会科学读书会】由清华大学罗家德教授领衔，卡内基梅隆大学、密歇根大学、清华大学、匹兹堡大学的多位博士生联合发起，自2022年6月18日开始，持续10-12周。本季读书将聚焦讨论Graph、Embedding、NLP、Modeling、Data collection等方法及其与社会科学问题的结合，并针对性讨论预测性与解释性、新冠疫情研究等课题。读书会详情及参与方式见文末，欢迎从事相关研究或对计算社会科学感兴趣的朋友参与。

详情请见：

数据与计算前沿方法整合：计算社会科学读书会第二季启动

推荐阅读

点击“阅读原文”，报名读书会