图片来源:iStock

导语

除了人工智能，人类的群体智能也是一块未充分挖掘的宝藏。特别是随着互联网的发展，每个人类个体的意见都更加容易收集。我们应如何聚合每个人类个体意见成为了一个极其重要的具有现实意义的问题。

群体与个体相比，是更聪明还是更愚蠢？古语中既有“三个臭皮匠，顶个诸葛亮”，也有“三人成虎”。发表于英国皇家学会 Journal of the Royal Society Interface 的最新文章显示，要想避免集体愚蠢、提升群体智慧，需要掌握估计偏差和社会影响规律。本文是对这项研究的详细解读。

论文题目：

Counteracting estimation bias and social influence to improve the wisdom of crowds

论文原文：

http://rsif.royalsocietypublishing.org/content/15/141/20180130

将多个非专家意见整合为集体估值，在许多情况下可以提高预估的准确度。然而，个体估计偏差和个体间信息共享这两种错误来源也可能会削弱群体的智慧。

首先，文章研究了现有的聚合方法（如算术平均值或中位数），平均数往往会高估真实值，而中位数往往会低估真实值。通过量化估计偏差，将个体偏差映射到集体偏差，帮助设计并且验证三种新的聚合方法，有效地削弱集体估计的误差。

此外，研究者进一步实验，量化个人估计与社会信息结合时的社会影响规律。发现，修正的均值准确度较少受社会影响，无论存不存在社会影响，对不同数量任务和获取平均社会信息的方法，它所提供的估值都高度准确。因此，掌握估计偏差和社会影响的规律是提高群体的智慧的途径。

1.研究背景与目的

1.1 群体的智慧：

汇总个体估计，提高集体估计的准确性

在线社交平台的流行使得民众对政治选举、政府决策或金融市场等多种主题的意见得以表达并迅速传播。其中，非专业人士贡献了大部分意见，因此可能普遍认为他们的估计可能预测准确度较低。然而，经验表明，聚合这些非专业看法，通过取估计集合的算术平均值或中位数，所得到的“集体”估计通常是高度精确的。除人类外，动物实验也得到了类似的结果。这表明，汇总不同个体的估计是提高估计准确性的良策，甚至在不同语境、对不同物种亦有效。

图片来源：The economist

1.2 理论与方法的界限①:

个体估计偏差

大数定律为“群体的智慧”提供了理论支持：如果个人的估测误差具有无偏性，且以真实值为中心，那么平均多人的估计将越发接近真实值。然而，个体决策往往做不到理论假设中的无偏差。

为提高集体估计的准确性，已经提出了许多聚合方法，如几何平均，算术平均值和中位数和’修剪均值’（修剪估计分布的尾部，然后算术平均值由截断分布计算）。虽然这些方法在某些情况下能够提高准确度，但未解决集体偏差的根本原因（即个体估计误差）。因此，我们不能将其推广到其他领域，也无法继续优化它们以逼近真实值。

1.3 理论与方法的局限②：

信息共享带来的社会影响

许多群体的智慧的模型认为观点独立于环境，但现实中，个体间往往会分享信息从而互相影响，因此他们的估值一定程度上相关。由于个体对社会信息的反应规律不同，社会影响不仅会使得估计值的分布更加集中，还可能让估计值的分布产生左偏或者右偏。例如，有着极端观念的个体如果固执己见，集体估计则倾向于转向这些意见。简而言之，即使孤立的个体估计不存在误差，社会影响也可能导致估计偏差的产生。

因此，量化个体估计和社会信息对集体估计的影响，对于优化群体的智慧、探索其边界至关重要。这有助于发现现有的最准确的聚合方法，还可以帮助设计可以削弱误差的新方法，最终能够比已有的方法具有更高的准确性和稳健性。

信息共享”摧毁”群体智慧。图片来源:The Euronext Amsterdam floor (Perpetualtourist2000).

2.实验与发现

2.1 实验(一)：量化估计偏差

2.1.1 实验方案

在第一个实验，研究者收集了5个新的数据集，并分析了文献中的8个现有数据集。研究者采用了著名集体智慧任务，’糖果罐’数量估计问题，即孤立个体（不考虑社会影响）估算一个罐子中的物品数目（如图1a所示），用以研究个体估计误差。新的数据集中，估计对象数量J和参与者人数n分别为：54（n = 36），139（n = 51），659（n = 602），5897（n = 69）和27852（n = 54）。

如图1b所示，图1b的估计直方图（灰色柱）非常接近对数正态分布（黑色实线）。μ（算术平均值）和σ（标准差）这两个描述对数正态分布的参数，均与罐内物体数量的对数呈线性关系（图1c和图1d）。

图1.数量对估计分布的影响。

实线：最大似然估计；阴影区域：95％置信区间。

2.1.2 现有聚合方法的误差：算术平均数，中位数

如图2a所示，由于对数正态分布具有长尾效应（图1b），夸大了平均值，算术平均值请相互高估实际数量；中位数倾向于低估真实值，表明大多数人低估了真实的数字，与其他研究的结论相符。平均值和中位数的高估和低估程度大致相同，未发现这两种聚合方法的一致性差异（图2b）。

此外，根据该模型的预测，如果物体数量过小（非实验测试范围），参与者会同时高估均值和中位数，有较大的相对误差。因此，该模型仅适用于本实验测试的范围，应避免泛用结论。

图2.（a）算术平均值和中位数与实际物体数量相比和（b）二者的相对误差。实线表示最大似然值；阴影区域表示95％置信区间；实心圆圈表示来自五个数据集的经验值。

2.1.3 设计并测试新的聚合方法：削弱估计偏差

修正的平均值与中位数：

对于对数正态分布，平均值的期望值是：，中位数的期望值是：。

如图1c、d所示，我们从估计偏差的经验测量得出了最佳拟合关系：和。

作者将前两个方程中的μ和σ替换为最佳拟合关系，然后求解J，这是对真实价值的“修正”估计。

由此，可以计算出“校正”的算术平均值：

和“更正”的中位数：

该方法同样适用于其他的估计任务，估计分布和估计偏差。

最大似然:

不像修正的平均值或修正的中位数，最大似然方法将估计值的全集用于计算新的集体估计。再次调用图1c、d得出的最佳拟合关系，这意味着，对于一个给定的物体实际数目J，预期它将服从对数正态分布并且参数分别为：和。因此，根据J计算各关联对数正态分布产生给定估计集合的可能性，使可能性最大的数就是真实值的集体估计值。

2.1.4 聚合方法的影响因素①：训练样本规模

如图3a，新的聚合方法均优于旧有方法，减少了58-78％的错误。比较三种新方法，最大似然方法表现最佳，其次是修正的均值，而修正的中位数整体精度最低。

随着训练数据集大小的增加，准确度有了很大的提高（图3b）。就实验所得样本而言，需达到200个样本，新的聚合方法才能得到较高的准确度。

图3.聚合方法的整体相对表现。图3(a)中蓝色代表大于50％，即表格行所示方法较优，红色代表小于50％，即表格列所示方法较优。

2.1.5 聚合方法的影响因素②：测试数据集的规模，误差容限

接下来研究了测试数据集的规模对准确性的影响。文中“误差容限”定义为聚合方法的最大可接受误差，并根据每种方法达到给定容限的概率（’容忍概率’）绘制图表。如果测试数据集规模相对较大，则三个新的聚合方法优于五个标准方法（图4b，c）。然而，当估计对象数量大且测试数据集样本数量相对较小时，聚合方法的相对准确性取决于误差容限，可能存在着标准方法优于新方法的情况。

图4.测试数据集大小和容错级别如何影响聚合方法的相对准确性。聚合方法表现出相对误差（定义为|X – J|/ J，其中X是聚合方法值）的概率小于给定的容错度。N为测试数据集规模，物体数量J = 22 026（ln（J）= 10）。

2.2 实验(二)：量化社会影响的规律

2.2.1 实验方案

然后，研究者选定物体数量为659的数据集，控制社会信息以探究个体在估算任务中遵循的社会影响规律。作者量化了各种聚合方法的准确性，并设计了新的聚合方法来削弱个体偏见和社会因素的影响，从而提高集体估计的准确性。

首先，参与者独立做出初始估值G1。接下来，参与者收到与其估计存在一定差异的“社会”信息S，并得知他们这是前面N位参与者的平均估计值（N为社群规模）。其中，一半参与者会随机收到G1 /2到G 1区间的社会信息（服从G1 /2到G 1区间的均匀分布），而另一半则会从G1至2G1中抽取（服从G1至2G1区间的均匀分布）。然后，参与者可以修改它们的初始猜测，做出第二次估计G 2。通过人工控制社会信息，探究社群规模、社会信息与初始估值的差率（简称社会差异）对个体估计的影响。

研究发现,部分参与者没有受社会信息的影响。因此，首先，研究者使用贝叶斯统计方法逻辑回归模型，拟合了参与者改变初始估值的概率。主要考察了社会差异（定义为（S – G1）/G1）、社会距离（社会差异的绝对值）和社群规模这三个因素。其次，对于那些改变估值的参与者，进一步分析改变估值的程度（第二次估计与第一次估计的差距）。社会影响强度定义为a，参与者再次估值的对数ln(G2)则为社会信息S的对数和初始估值的对数的加权平均（ln(G2) = a*ln(S) +(1 – a)ln(G1)）。其中a = 0时，说明个体完全没有受到社会信息的影响；而当a = 1时，个体和社会信息完全一致。

2.2.2 社会影响规律：社会置换，社群规模

一方面，如图5c，我们发现社会信息越小于初始估值，社会影响权重越小，即当社会差异为负时，社会影响权重与社会差异为正比。但当社会差异为正时，社会差异对社会影响权重影响不大。另一方面，如图5d，社会影响权重随着社群规模扩大而增加。

图5.社会影响规则。实线：预测的平均值; 阴影面积：95％可信区间;圈：（a-b）的分组数据的均值和（c-d）的原始数据。

2.2.3 社会影响与聚合方法：估值分布，聚合方法的准确度

分享信息会改变独立估计的对数正态分布，特别是，由于新的聚合方法参数化是基于未受社会影响的个体独立估计，当个体彼此共享信息时，准确度可能会降低。

尽管最大似然估计方法在没有社会影响的情况下通常表现最好（图3），然而这一指标极易受到社会影响，尤其在对象数量较大时（图6）。相比之下，受社会影响时，与几何平均数和算术平均数相比，修正的平均值在不同的物体数量任务中都非常稳健（图6）；没有社会影响时，修正的平均值与最大似然方法具有几乎相同的准确度。

图6.社会影响下聚合方法的稳健性。

（a-c）与几何平均数对比；（d-f）与算术平均数对比。浅灰色圆圈：不受社会影响；深灰色圆圈：受社会影响。对于数量为ln（J）= 4（a，d），ln（J）= 7（b，e）和ln（J）= 10（c，f）。圆圈表示1000次重复中的平均相对误差; 误差条图是标准错误的两倍。

3.结论与推广

3.1 文章要点：

误差来源、聚合方法与群体智慧

虽然群体的智慧已经在许多人类和非人类的情境中被证明，但其准确性的局限仍然没有得到足够的研究。本文中，通过分析两个主要误差来源，个人（估计偏差）和社会（信息共享），探究了群体的智慧如何、为什么以及何时可能失效。文章揭示了一些常用平均估值指标的局限性，并介绍了三种新方法，通过更好地理解这些错误来源，提高群体的智慧。

3.2 结论推广：

从数量估计到一般的估计任务

除了从数量估计任务得到的结论和建议之外，这些方法也可以应用于各种其他估计任务。个体估计偏差和社会影响是无处不在的，估计任务可归到容易受到类似偏差或社会规则影响的大类中。例如，许多估计任务可能呈对数正态分布，而其他可能呈正态分布。事实上，有证据表明，削弱估计偏差可能提高以下领域的估计准确度：概率，城市人口，电影的票房回报和工程失败率。

3.3 社会影响规律与社会置换：

与自身估值的差异，估计对象的数量级

此外，我们根据经验归纳的社会影响规律与一般社会影响模型相似，但未考虑社会差异的影响。这种非对称效应表明，相比低于自身估值的社会信息，个体会更受高于自身估值的社会信息影响。观察到变化系数随对象数量增加而增长，这可能表明一个人对自己估计的信心随着对象数量增加而下降，也许导致了社会差异的不对称效应。在其他估计领域，个体估计的置信水平与估计任务的数量级有类似的关系。结合社会距离的较弱负面影响，令人联想到“有限信心”观点的动态模型，个体倾向于重视与自身观点相似的社会信息。

图片来源:iStock

通过量化分析个体估计偏差和社会信息共享带来的集体偏见，新的聚合方法可以削弱这种偏差，在汇总观点时可能会产生显著的改进。这也可以应用于其他领域。

3.4 其他方法：“隐藏的专家”

其他方法也已被用于提高群体智慧的准确性。一种策略是寻找“隐藏的专家”，提高他们意见的权重。虽然这种方法在某些情况下有效，但在实验数据中没有找到存在隐藏专家的证据。对比忽视和使用社会信息的两类人群，他们估计值的分布没有显著差异（p = 0.938，用Welch的t-检验对数转换后的估计值），而且算术平均值、中位数和三种新的聚合方法在这两个群体当中都未显示出更高的准确度。此外，搜索隐藏的专家需要关于个人的额外信息（例如使用社会信息的倾向，过去的表现或对于自己估值的置信水平）。文章中的方法不需要任何关于每个人的附加信息，只需要关于总体人口统计趋势的信息（且可能只需较少的样本就能充分参数化这些趋势）。

3.5 聚合方法的改进与展望：

模拟个体影响和社会网络，一般化计算置信区间

这三种新方法也存在进一步改进的可能。当潜在的社会网络已知，或个体的权力/影响力存在差异时，模拟这些网络的社会影响规则可能促进对个体估值与集体估值的关系的理解。另外，聚合方法可以直接一般化计算置信区间，生成的估计范围以一定概率包括真实值。为了提高置信区间的准确性，我们在本文中也证明了样本大小等其他特征的重要性。