论文解读:从乌合之众到群体智慧的一步之遥
图片来源:iStock
除了人工智能,人类的群体智能也是一块未充分挖掘的宝藏。特别是随着互联网的发展,每个人类个体的意见都更加容易收集。我们应如何聚合每个人类个体意见成为了一个极其重要的具有现实意义的问题。
群体与个体相比,是更聪明还是更愚蠢?古语中既有“三个臭皮匠,顶个诸葛亮”,也有“三人成虎”。发表于英国皇家学会 Journal of the Royal Society Interface 的最新文章显示,要想避免集体愚蠢、提升群体智慧,需要掌握估计偏差和社会影响规律。本文是对这项研究的详细解读。
论文题目:
Counteracting estimation bias and social influence to improve the wisdom of crowds
论文原文:
http://rsif.royalsocietypublishing.org/content/15/141/20180130
1.研究背景与目的
1.1 群体的智慧:
汇总个体估计,提高集体估计的准确性
在线社交平台的流行使得民众对政治选举、政府决策或金融市场等多种主题的意见得以表达并迅速传播。其中,非专业人士贡献了大部分意见,因此可能普遍认为他们的估计可能预测准确度较低。然而,经验表明,聚合这些非专业看法,通过取估计集合的算术平均值或中位数,所得到的“集体”估计通常是高度精确的。除人类外,动物实验也得到了类似的结果。这表明,汇总不同个体的估计是提高估计准确性的良策,甚至在不同语境、对不同物种亦有效。
图片来源:The economist
1.2 理论与方法的界限①:
个体估计偏差
1.3 理论与方法的局限②:
信息共享带来的社会影响
因此,量化个体估计和社会信息对集体估计的影响,对于优化群体的智慧、探索其边界至关重要。这有助于发现现有的最准确的聚合方法,还可以帮助设计可以削弱误差的新方法,最终能够比已有的方法具有更高的准确性和稳健性。
信息共享”摧毁”群体智慧。图片来源:The Euronext Amsterdam floor (Perpetualtourist2000).
因此,量化个体估计和社会信息对集体估计的影响,对于优化群体的智慧、探索其边界至关重要。这有助于发现现有的最准确的聚合方法,还可以帮助设计可以削弱误差的新方法,最终能够比已有的方法具有更高的准确性和稳健性。
2.实验与发现
2.1 实验(一):量化估计偏差
2.1.1 实验方案
如图1b所示,图1b的估计直方图(灰色柱)非常接近 (黑色实线)。μ(算术平均值)和σ(标准差)这两个描述对数正态分布的参数,均与罐内物体数量的对数呈 关系(图1c和图1d)。
图1.数量对估计分布的影响。
实线:最大似然估计;阴影区域:95%置信区间。
2.1.2 现有聚合方法的误差:算术平均数,中位数
如图2a所示,由于对数正态分布具有长尾效应(图1b),夸大了平均值,算术平均值请相互高估实际数量;中位数倾向于 真实值,表明大多数人低估了真实的数字,与其他研究的结论相符。平均值和中位数的高估和低估程度大致相同,未发现这两种聚合方法的一致性差异(图2b)。
此外,根据该模型的预测,如果 过小(非实验测试范围),参与者会同时高估均值和中位数,有较大的相对误差。因此,该模型仅适用于本实验测试的范围,应避免泛用结论。
图2.(a)算术平均值和中位数与实际物体数量相比和(b)二者的相对误差。实线表示最大似然值;阴影区域表示95%置信区间;实心圆圈表示来自五个数据集的经验值。
2.1.3 设计并测试新的聚合方法:削弱估计偏差
修正的平均值与中位数:
对于对数正态分布,平均值的期望值是:,中位数的期望值是:。
如图1c、d所示,我们从估计偏差的经验测量得出了最佳拟合关系:和。
μ σ J
由此,可以计算出“校正”的算术平均值:
和“更正”的中位数:
该方法同样适用于其他的估计任务,估计分布和估计偏差。
最大似然:
2.1.4 聚合方法的影响因素①:训练样本规模
图3b
图3.聚合方法的整体相对表现。图3(a)中蓝色代表大于50%,即表格行所示方法较优,红色代表小于50%,即表格列所示方法较优。
2.1.5 聚合方法的影响因素②:测试数据集的规模,误差容限
图4.测试数据集大小和容错级别如何影响聚合方法的相对准确性。聚合方法表现出相对误差(定义为|X – J|/ J,其中X是聚合方法值)的概率小于给定的容错度。N为测试数据集规模,物体数量J = 22 026(ln(J)= 10)。
2.2 实验(二):量化社会影响的规律
2.2.1 实验方案
然后,研究者选定物体数量为659的数据集,控制社会信息以探究个体在估算任务中遵循的社会影响规律。作者量化了各种聚合方法的准确性,并设计了新的聚合方法来削弱个体偏见和社会因素的影响,从而提高集体估计的准确性。
研究发现,部分参与者没有受社会信息的影响。因此,首先,研究者使用贝叶斯统计方法逻辑回归模型,拟合了参与者改变初始估值的概率。主要考察了社会差异(定义为(S – G1)/G1)、社会距离(社会差异的绝对值)和社群规模这三个因素。其次,对于那些改变估值的参与者,进一步分析改变估值的程度(第二次估计与第一次估计的差距)。社会影响强度定义为
2.2.2 社会影响规律:社会置换,社群规模
图5.社会影响规则。实线:预测的平均值; 阴影面积:95%可信区间;圈:(a-b)的分组数据的均值和(c-d)的原始数据。
2.2.3 社会影响与聚合方法:估值分布,聚合方法的准确度
分享信息会改变独立估计的对数正态分布,特别是,由于新的聚合方法参数化是基于未受社会影响的个体独立估计,当个体彼此共享信息时,准确度可能会降低。
图3) 图6)
图6.社会影响下聚合方法的稳健性。
(a-c)与几何平均数对比;(d-f)与算术平均数对比。浅灰色圆圈:不受社会影响;深灰色圆圈:受社会影响。对于数量为ln(J)= 4(a,d),ln(J)= 7(b,e)和ln(J)= 10(c,f)。圆圈表示1000次重复中的平均相对误差; 误差条图是标准错误的两倍。
3.结论与推广
3.1 文章要点:
误差来源、聚合方法与群体智慧
虽然群体的智慧已经在许多人类和非人类的情境中被证明,但其准确性的局限仍然没有得到足够的研究。本文中,通过分析两个主要误差来源,个人(估计偏差)和社会(信息共享),探究了群体的智慧如何、为什么以及何时可能失效。文章揭示了一些常用平均估值指标的局限性,并介绍了三种新方法,通过更好地理解这些错误来源,提高群体的智慧。
3.2 结论推广:
从数量估计到一般的估计任务
除了从数量估计任务得到的结论和建议之外,这些方法也可以应用于各种其他估计任务。个体估计偏差和社会影响是无处不在的,估计任务可归到容易受到类似偏差或社会规则影响的大类中。例如,许多估计任务可能呈对数正态分布,而其他可能呈正态分布。事实上,有证据表明,削弱估计偏差可能提高以下领域的估计准确度:概率,城市人口,电影的票房回报和工程失败率。
3.3 社会影响规律与社会置换:
与自身估值的差异,估计对象的数量级
图片来源:iStock
通过量化分析个体估计偏差和社会信息共享带来的集体偏见,新的聚合方法可以削弱这种偏差,在汇总观点时可能会产生显著的改进。这也可以应用于其他领域。
3.4 其他方法:“隐藏的专家”
p t
3.5 聚合方法的改进与展望:
模拟个体影响和社会网络,一般化计算置信区间
图片来源:iStock
总之,削弱估计偏差和社会影响可能是提高群体智慧的简单、普遍、高效的一种策略。
作者:杨清怡
审校:张洪、李周园
编辑:王怡蔺
推荐阅读
集智QQ群|292641157
商务合作|zhangqian@swarma.org
投稿转载|wangting@swarma.org
◆ ◆ ◆
搜索公众号:集智俱乐部
加入“没有围墙的研究所”
让苹果砸得更猛烈些吧!
始发于微信公众号: 集智俱乐部