摘要

Artificial intelligence (AI) and machine learning models are being increasingly deployed in real-world applications. In many of these applications, there is strong motivation to develop hybrid systems in which humans and AI algorithms can work together, leveraging their complementary strengths and weaknesses. We develop a Bayesian framework for combining the predictions and different types of confidence scores from humans and machines. The framework allows us to investigate the factors that influence complementarity, where a hybrid combination of human and machine predictions leads to better performance than combinations of human or machine predictions alone. We apply this framework to a large-scale dataset where humans and a variety of convolutional neural networks perform the same challenging image classification task. We show empirically and theoretically that complementarity can be achieved even if the human and machine classifiers perform at different accuracy levels as long as these accuracy differences fall within a bound determined by the latent correlation between human and machine classifier confidence scores. In addition, we demonstrate that hybrid human–machine performance can be improved by differentiating between the errors that humans and machine classifiers make across different class labels. Finally, our results show that eliciting and including human confidence ratings improve hybrid performance in the Bayesian combination model. Our approach is applicable to a wide variety of classification problems involving human and machine algorithms.

人工智能和机器学习模型正越来越多地被应用于现实世界中。在许多这样的应用程序中,我们有很强的动机去开发人机混合系统。在人机混合系统中,人类和人工智能算法可以一起工作,充分利用它们具有的互补性优势和弱点。我们开发了一个贝叶斯框架,用于结合来自人类和机器的不同类型的预测的信心评分。该框架允许我们研究影响预测中的互补因素,在这种情况下,人机预测的混合组合结果比单独的人类预测及算法预测都显示出更好的表现。我们将这个框架应用到一个大规模数据集中,在这个数据集中,人类和各种卷积神经网络执行同样具有挑战性的图像分类任务。我们从经验和理论上证明,即使人机分类器呈现出不同的准确度水平上,只要人机分类器的准确度可信评分位于隐含的相关性所决定的范围内,也可以实现人机互补。此外,我们还证明了通过区分人类和机器分类器在不同类别标签之间产生的错误,可以提高混合人机系统的性能。最后,我们的结果表明,加入人给出的可信度评分可提高贝叶斯组合模型的混合性能。我们的方法适用于涉及人和机器算法的各种分类问题。

研究领域:预测模型,贝叶斯框架,人机混合系统

郭瑞东 | 作者

刘培源 | 审校

邓一雪 | 编辑

论文题目:

Bayesian modeling of human–AI complementarity
论文地址:

https://www.pnas.org/doi/10.1073/pnas.2111547119

 

在预测任务中,使用算法得出的结果可能和人类判断不同,某些人类很难分辨的例子,对机器则很容易,反之亦有可能。最近发表在PNAS的一篇论文,尝试利用这样的互补性,来提升预测准确度。

       
图1. A 组是对人很难、对机器很容易的图片分类示例,对应标签分别为鸟、船、熊、熊、烤箱、烤箱;B 组是对人很容易、对机器很难的分类示例,对应标签分别为汽车、汽车、猫、猫、熊、熊。

               

图2. 在图片分类任务上,人类和机器的结果都相关性,显著低于两个人类之间,以及两种分类模型之间的相关性。这量化地说明了人与机器在预测任务上存在互补性。
此前的研究已经展示了单独结合不同机器分类器或多人预测带来的优势。而为了利用人机之间预测的互补性,需要一个模型将人的预测结果和可信度打分,与算法的预测结果结合起来,并给出一个整合后的预测结果。该研究提出的,正是这样一个具有通用性的框架。该框架扩展了基于众包的群体智慧研究,在诸如医学和司法系统等预测结果有重要影响的领域有潜在应用。
               
图3. 基于贝叶斯的人机预测结果整合模型示意图。其中标色的是可见的信息,白色的是不可见的信息。该框架需要人对训练数据给出标签和可信度信息,以便计算表征人类和机器预测结果的相关性和表现的参数。在预测阶段,会结合机器做出的概率性预测和人的预测,得到整合后的预测结果。
在图片分类任务上,使用该框架得出的分类结果,相比单独的人类预测以及只使用主流的图片分类模型,都要更优。
               
图4. 对比该框架下,人机协作后和人类或机器单独预测的结果对比
该框架中,人类的机器预测的置信度之间的差异,将影响模型能否利用互补性得到更好的结果。
               
图5. 人类和机器预测的准确度得分(分别对应横轴和纵轴)时,该研究提出的框架能否发挥互补性的优势,理论预测的可以发挥互补性的区间是虚线包含的,实际测试中模型体现出互补性的是红色区域,红色的点对应具体案例,可以看到即使人类和机器给出的预测可信度打分差异较大,也可以通过该研究提出的贝叶斯模型,得出更准确的预测结果。
该研究的结果,对那些还没有达到人类水平准确性的算法系统具有启示意义。研究指出从人类预测开始,添加算法预测(准确度不如人工预测)可能比添加额外的人工预测更有益。因此,评估人工智能算法的基准不一定是人类的预测准确性水平。如果一个算法不能达到人类水平的准确性,它仍然可以提高混合预测的准确性。同时,该研究的结果也表明,一旦人工智能方法在特定领域超过了人类的表现,这并不意味着人类的判断在人机混合系统中不再有用。可以通过利用不同机制进行预测,或改变预测模型的目标函数,来让人工智能预测与人类预测之间保持一定的独立性。
 
 

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅:

推荐阅读

点击“阅读原文”,追踪复杂科学顶刊论文