PNAS速递：基于贝叶斯的人机混合预测框架

摘要

Artificial intelligence (AI) and machine learning models are being increasingly deployed in real-world applications. In many of these applications, there is strong motivation to develop hybrid systems in which humans and AI algorithms can work together, leveraging their complementary strengths and weaknesses. We develop a Bayesian framework for combining the predictions and different types of confidence scores from humans and machines. The framework allows us to investigate the factors that influence complementarity, where a hybrid combination of human and machine predictions leads to better performance than combinations of human or machine predictions alone. We apply this framework to a large-scale dataset where humans and a variety of convolutional neural networks perform the same challenging image classification task. We show empirically and theoretically that complementarity can be achieved even if the human and machine classifiers perform at different accuracy levels as long as these accuracy differences fall within a bound determined by the latent correlation between human and machine classifier confidence scores. In addition, we demonstrate that hybrid human–machine performance can be improved by differentiating between the errors that humans and machine classifiers make across different class labels. Finally, our results show that eliciting and including human confidence ratings improve hybrid performance in the Bayesian combination model. Our approach is applicable to a wide variety of classification problems involving human and machine algorithms.

人工智能和机器学习模型正越来越多地被应用于现实世界中。在许多这样的应用程序中，我们有很强的动机去开发人机混合系统。在人机混合系统中，人类和人工智能算法可以一起工作，充分利用它们具有的互补性优势和弱点。我们开发了一个贝叶斯框架，用于结合来自人类和机器的不同类型的预测的信心评分。该框架允许我们研究影响预测中的互补因素，在这种情况下，人机预测的混合组合结果比单独的人类预测及算法预测都显示出更好的表现。我们将这个框架应用到一个大规模数据集中，在这个数据集中，人类和各种卷积神经网络执行同样具有挑战性的图像分类任务。我们从经验和理论上证明，即使人机分类器呈现出不同的准确度水平上，只要人机分类器的准确度可信评分位于隐含的相关性所决定的范围内，也可以实现人机互补。此外，我们还证明了通过区分人类和机器分类器在不同类别标签之间产生的错误，可以提高混合人机系统的性能。最后，我们的结果表明，加入人给出的可信度评分可提高贝叶斯组合模型的混合性能。我们的方法适用于涉及人和机器算法的各种分类问题。

研究领域：预测模型，贝叶斯框架，人机混合系统

郭瑞东 | 作者

刘培源 | 审校

邓一雪 | 编辑

论文题目：

Bayesian modeling of human–AI complementarity

论文地址：

https://www.pnas.org/doi/10.1073/pnas.2111547119

在预测任务中，使用算法得出的结果可能和人类判断不同，某些人类很难分辨的例子，对机器则很容易，反之亦有可能。最近发表在PNAS的一篇论文，尝试利用这样的互补性，来提升预测准确度。

图1. A 组是对人很难、对机器很容易的图片分类示例，对应标签分别为鸟、船、熊、熊、烤箱、烤箱；B 组是对人很容易、对机器很难的分类示例，对应标签分别为汽车、汽车、猫、猫、熊、熊。

图2. 在图片分类任务上，人类和机器的结果都相关性，显著低于两个人类之间，以及两种分类模型之间的相关性。这量化地说明了人与机器在预测任务上存在互补性。

此前的研究已经展示了单独结合不同机器分类器或多人预测带来的优势。而为了利用人机之间预测的互补性，需要一个模型将人的预测结果和可信度打分，与算法的预测结果结合起来，并给出一个整合后的预测结果。该研究提出的，正是这样一个具有通用性的框架。该框架扩展了基于众包的群体智慧研究，在诸如医学和司法系统等预测结果有重要影响的领域有潜在应用。

图3. 基于贝叶斯的人机预测结果整合模型示意图。其中标色的是可见的信息，白色的是不可见的信息。该框架需要人对训练数据给出标签和可信度信息，以便计算表征人类和机器预测结果的相关性和表现的参数。在预测阶段，会结合机器做出的概率性预测和人的预测，得到整合后的预测结果。

在图片分类任务上，使用该框架得出的分类结果，相比单独的人类预测以及只使用主流的图片分类模型，都要更优。

图4. 对比该框架下，人机协作后和人类或机器单独预测的结果对比

该框架中，人类的机器预测的置信度之间的差异，将影响模型能否利用互补性得到更好的结果。

图5. 人类和机器预测的准确度得分（分别对应横轴和纵轴）时，该研究提出的框架能否发挥互补性的优势，理论预测的可以发挥互补性的区间是虚线包含的，实际测试中模型体现出互补性的是红色区域，红色的点对应具体案例，可以看到即使人类和机器给出的预测可信度打分差异较大，也可以通过该研究提出的贝叶斯模型，得出更准确的预测结果。

该研究的结果，对那些还没有达到人类水平准确性的算法系统具有启示意义。研究指出从人类预测开始，添加算法预测（准确度不如人工预测）可能比添加额外的人工预测更有益。因此，评估人工智能算法的基准不一定是人类的预测准确性水平。如果一个算法不能达到人类水平的准确性，它仍然可以提高混合预测的准确性。同时，该研究的结果也表明，一旦人工智能方法在特定领域超过了人类的表现，这并不意味着人类的判断在人机混合系统中不再有用。可以通过利用不同机制进行预测，或改变预测模型的目标函数，来让人工智能预测与人类预测之间保持一定的独立性。

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅：

推荐阅读

点击“阅读原文”，追踪复杂科学顶刊论文

PNAS速递：基于贝叶斯的人机混合预测框架

模块化认知：演化如何自下而上涌现出智能？

布朗运动与气候记忆：从理论到应用 | 周二直播·地球系统科学读书会

发表评论点击这里取消回复。

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

谷歌量子芯片发布：量子纠错取得重要突破

DeepSeek-R1｜集智百科

因果涌现：用因果量化复杂系统中的涌现｜集智百科

具身智能读书会启动：走向现实世界的下一代AI系统

2024年诺奖解读：统计物理、人工智能与复杂科学

最新文章

培养皿中的“微型大脑”会学习？首款商用生物计算机CL1如何用脑细胞颠覆计算未来

大语言模型推理跃迁：从system1到system2丨周六分享·大模型2.0读书会

SafeVLA ：面向开放世界的具身安全创新路径丨周日直播·具身智能读书会

生命的级联：PNAS研究揭示从分子机器到生物圈的演化之路

反常的是正常的！用哈密顿原理建立冷原子扩散模型

PNAS速递：基于贝叶斯的人机混合预测框架

微信扫一扫,分享到朋友圈

模块化认知：演化如何自下而上涌现出智能？

布朗运动与气候记忆：从理论到应用 | 周二直播·地球系统科学读书会

猜你喜欢

培养皿中的“微型大脑”会学习？首款商用生物计算机CL1如何用脑细胞颠覆计算未来

大语言模型推理跃迁：从system1到system2丨周六分享·大模型2.0读书会

SafeVLA ：面向开放世界的具身安全创新路径丨周日直播·具身智能读书会

生命的级联：PNAS研究揭示从分子机器到生物圈的演化之路

反常的是正常的！用哈密顿原理建立冷原子扩散模型

网络动力学前沿领读：从扩散、相变到博弈丨周五直播·复杂网络动力学读书会

发表评论 点击这里取消回复。

Koopman分析在非线性动力学中的应用

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

谷歌量子芯片发布：量子纠错取得重要突破

DeepSeek-R1｜集智百科

因果涌现：用因果量化复杂系统中的涌现｜集智百科

具身智能读书会启动：走向现实世界的下一代AI系统

2024年诺奖解读：统计物理、人工智能与复杂科学

最新文章

培养皿中的“微型大脑”会学习？首款商用生物计算机CL1如何用脑细胞颠覆计算未来

大语言模型推理跃迁：从system1到system2丨周六分享·大模型2.0读书会

SafeVLA ：面向开放世界的具身安全创新路径丨周日直播·具身智能读书会

生命的级联：PNAS研究揭示从分子机器到生物圈的演化之路

反常的是正常的！用哈密顿原理建立冷原子扩散模型

关注我们的公众号

发表评论点击这里取消回复。