人类的群体智慧是一块尚未充分挖掘的宝藏。各种互联网评分系统，最为典型。

任何一个网民都会被人请求填写产品调查问卷，然而问卷的汇总结果却经常与实际情况相差甚远。

毕竟人类不是机器，主观感受、社会价值、习惯等因素都会诱导人们做出与事实有偏差的评价。这个现象在产品打分等类似的评价系统中广泛存在。近日在美国国家科学院院刊PNAS上发表的一篇文章，解释了高成本信号如何帮助群体做出更准确的决策——只需要向参与者提示“不同行为的不同代价”，就能够影响到参与者的行为，形成超越个体认知偏差的群体智慧。

论文题目：Crowd wisdom enhanced by costly signaling in a virtual rating system

论文地址：https://www.pnas.org/content/116/15/7256

所有个体都只考虑自身，为什么还能形成群体智慧？

在互联网上，网民表达意见方便快捷，众多网民的意见综合起来，会大大降低个体的主观差异。我们买书，看电影，找餐厅，挑选旅游目的地，常常会参考评分网站上的意见。

单一个体做决策，常常与一群人做决策的结果大不相同。个体层面的竞争与合作，在群体层面会涌现出智能。而对于个体行为如何涌现出群体智慧，有许多理论试图来解释。

群体智慧中被广泛研究的理论做出了与我们直觉相符的暗示，它被称为理性行动理论（rational action theory）。理性行动理论认为，提升群体智慧的最好途径是降低群体内的交流成本，让评价人做出理性评价的阻力最小，让信号能够自由地传播。

但人类个体行为真的是完全被理性驱动的吗？显然不是，理性行动理论被反复研究，在有众多影响因素的互联网环境下它并不总是有效的。

来自生物学的启发——高成本信号理论

生物学中有一个经典的理论——高成本信号理论（Costly signals theory ）：为了维持信息的可信度，交流系统必须依赖需要付出成本的信号（Costly signals）。动物（当然包括人在内）会选择用高成本的行为来传递某类重要信息，这些信息往往意味着高价值。

行为的高成本将使得“打肿脸充胖子”行为不太可能，或是“滥竽充数”的代价高于他所能因此收获的预期收益。比如为了维持颜面而选择高消费的人，就要承担他所难以承担的花费；又如慈善行为往往意味着“我”是一个可信赖的，诚实且有资本的社会成员。再以动物为例，雄孔雀生长出华丽无用的长尾巴，幼鸟用疯狂的祈食行为展示自己对营养的需求。

雄孔雀开屏，向雌孔雀展示漂亮的羽毛，是典型的传递高成本信号的行为

如果个体能发出同样有价值意味的信号而不用付出任何代价，欺骗就会盛行，信息的质量就会下降。然而，人类互联网中的信息传播正是以低成本的方式进行着。

在网络条件下，评价个体的高成本信号是件很微妙的事情。在这个过程中，发送信号的个体似乎与接受信号的个体之间没有利益交换或冲突。高速的信息交换和更不明确的利益则导致即便个体没有明显的诱因去做出欺骗行为，就算是下意识地，他们也会提供模糊低质的信息。由此，增加信号成本能够提高群体表达信息的准确性似乎能说得通。

什么样的评分系统最好——应该简单省力，还是费时费力？

借助在线网络评分，群体智慧更容易形成，但这种群体智慧也不都是准确有效的——动动手指就可以打分，会有很多人都随便打分，或者故意打最高分/最低分。

既然生物体做出动作都会考虑成本信号，那么对在线评分系统来说，评价成本也可能会影响到参与者的评价行为。能否利用一些手段提高群体决策的准确性呢？

来自普林斯顿大学和纽约城市大学的研究人员，设计了两个有趣的评级小游戏，来验证高成本信号理论能否应用于网络评分系统。在游戏中使用具有类似阻力的互动零件来调整玩家报告评价分数的时间成本。

第一个游戏中，玩家们不会因为提供仔细准确的评分而获得实际利益，即低动机情况。在互联网环境下，这种低动机评分系统无处不在。而另一个游戏的玩家认为自己会因为良好的评价质量而获得实际的经济回报，即高动机情况。

这两种情况下，研究者分别研究了不同信号成本对群体做出理智决策的影响，而“回报”是否会诱导玩家提供准确的评价呢？结果表明，相对于毫无成本、点击即可的评分形式，即便没有利益诱导，给玩家群体发送施加“阻力”的信号也有助于获得群体对质量评估的可靠数据。

评价的回报多少不重要，让评价行为的成本提高才重要。用户的评分过程越麻烦，评分系统得到的结果就越客观。

这与直觉相悖：为什么评分系统费时费力，反而让玩家们给出了更可靠的评价？

没有奖励的评分系统：为何群体智慧表现并不明显？

阐述完了理论背景，让我们来看看实验。作者设计了两个小游戏来模拟不同利益和阻力的刺激下群体的决策能力。在第一个模拟游戏中，玩家们需要在15分钟内驾驶一辆小车来收集硬币，而硬币会对应现实中实际的金钱回报。一小段路的尽头和下一条路的起点被“河”所隔开，渡轮（速度在一定范围内随机变化）会将玩家渡过这个“赚钱障碍”，然后玩家们要为这次“渡河服务”从0到100打分

游戏过程示意。玩家们需要在15分钟内驾驶一辆小车来收集硬币，而硬币会对应现实中实际的金钱回报。一小段路的尽头和下一条路的起点被“河”所隔开，渡轮（速度在一定范围内随机变化）会将玩家渡过这个“赚钱障碍”，然后玩家们要为这次“渡河服务”从0到100打分。

速度是随机变化的，也就意味着渡河时间是随机的、均匀分布的，所以玩家的体验也应该是从0到100均匀分布。

在这个实验中，不同的组的评分系统有一些故意设计的差异。对照组使用鼠标点击打分的方式评分，动动手指就给出了分数，对照组每次评分的时间成本接近于零。

而实验组一共有5组，使用左右方向控制一个匀速挪动的游标来从0到100打分，组间区别在于游标默认的位置分别在0分、25分、50分、75分和100分。实验组每次评分都需要话不少时间挪动游标。

由于这个游戏是限时游戏，玩家做出评分的时间与精力就等同于他付出的“成本”。如果玩家想要快点进行下一场游戏，就会草率打分。如果玩家认为实事求是的评分能提高渡轮的表现，那么他们就有更高的动机去这么做。果然，游戏结束后的回访中，大多数玩家认为自己对游戏的打分并没有影响到船的快慢。

在每个实验组中，都可以观察到有一定比例的玩家倾向选择“默认”。起始位置的不同造成玩家评分时耗费的时间成本不同。将0分作为初始位置的时间成本与报告质量成正比，以100分作为起始位置的，成反比，在50分位置作为起点的时间成本与距离真实期望值成正比。

图1C-1D，点击评分制的统计结果。图C展示玩家评价，其对“服务质量”的评分数据有一个明显向右的倾斜，而不是均匀分布；图D是五局评分数据的总和，每组都会在游标初始的默认位置形成一个峰值，而在100分的位置再次形成一个峰值。

现在，让我们来观察一下数据的大致分布情况。实际情况是渡轮通过障碍的时间是均匀分布的，所以如果群体给出的信息足够高质，则应该获得类似均匀分布的概率密度图。但是展示玩家评价的图C中“服务质量”数据有一个明显向右的倾斜，这是个在调查中普遍存在的现象，是对实际情况认知的一个偏差。

再来看看图D，它是5组滑动游标组结果的总和。在这五组中，所有组都会在游标初始的默认位置形成一个峰值，而在100分的位置再次形成一个峰值。时间成本和选择成本都会影响玩家的评价，除非这个选择与个体的个人意见相差甚远。也就是说在这个例子中，群体的决策没有给出更精确的答案。

如果在低收益情况下，提高每次评分行为的成本，结果会有什么不同？

凭借图表我们看到，实验组并没有表现出过人的“智慧”。研究者进一步希望用定量分析的方法，来进一步探究背后的原因，以及如何改善这个情况。使用决定系数R²这个指标可以定量衡量评价数据能多大程度体现现实情况，这个指标越接近1，则证明数据越接近真实情况。

图2-A展示了各组的决定系数，从图中可以看出，无论是对照组还是五个实验组，较低的R²都表示玩家对渡船的评分与实际情况相差甚远，其中50-游标组和75-游标组比对照组存在R²的显著提高。

过低的决定系数，一部分是因为更用心评分的人所评价的分数并没有被与“随意”的打分区分开来，研究人员加入了加权机制，再次分析了数据。根据距离初始位置的距离来衡量玩家评价来确定玩家所消耗的时间成本，如果游标距离初始位置较远，那么他就花费较长时间报告的分数。

根据高成本信号理论，这个消耗伴随着比花费很少或没有时间报告的分数更具信息性的数据，由此有理由给这些信息更大的比重。

研究者通过增加这些高成本的信息的权重来实现这一点。作者的假设在加权前后R²的显著增加上被证实（P<0.05）。并且，在后续的实验中，为了更好体现“高成本”，作者增加了“成本函数（cost function）”来调整滑块移动的速度，距离初始位置越远，滑块滑动阻力越大，评分的成本越高。

调整前后评分与其对应的时间成本大小

在增加权重之后R^2有了一定的上升，评分结果更接近真实情况了

有奖励的评分系统：高成本信号催生群体智慧

在第一个实验中，可以预见的是，单纯增加传递评分信息的成本并没有很大程度增加“群体智慧”。可能的原因是玩家内心对于评分行为所获利益的期望是很低的。第一个游戏的环境中，打出极端评价的成本不足以弥补玩家从中的获利。接下来研究人员提高了玩家对于随意打分的成本，看看是否能有一些不同的结果。

第二个游戏的设计中，研究员改动了游戏情景，增加诱导玩家做出严谨精确的评价。在这个快节奏游戏中，三个不同的渡轮公司轮流给玩家带回硬币，每个公司的的渡轮速度和携带的硬币的数量都不一样。这个游戏由36轮游戏组成，其中在第8，15，21，27和32轮中，三个公司中评价最差的那个会被替换掉。

这个替换机制是为了给玩家留下准确评分能够增加金钱收入的印象，但是实际上渡轮的性能并不因此而受到影响。实验分为三个组，对照组同样使用点击进行评分，实验组分为“低阻力”和“高阻力”给玩家不同的评分时间成本，并且引入了之前提到的“成本函数”做修正。

第二个游戏示意图，三个公司中评价最差的那个会被替换掉。这个替换机制是为了给玩家留下准确评分能够增加金钱收入的印象，但是实际上渡轮的性能并不因此而受到影响。>实验分为三个组，对照组同样使用点击进行评分，实验组分为“低阻力”和“高阻力”给玩家不同的评分时间成本，并且引入了之前提到的“成本函数”做修正。

有趣的是，相比于第一个游戏，在这个游戏中，玩家的评分结果更接近实际情况。

正如高成本信号理论所预测的那样，两个实验组的“群体智慧”都好于对照组且R²在滑块-50-高成本这一组获得了最高的R²。并且，只有滑块-50-高成本这组对高分的偏好低于点击组，消弭了玩家下意识愿意打高分的行为。在实验后的回访中，果然，接近60%的玩家认为评分能帮助提高轮渡的速度。

增加了激励的实验中所有组的决定系数都有质的提高

理性行动理论和高成本信号理论都提供了可能提高群体智慧的路径。这项研究的数据表明，即使用户并没有利益驱动，我们也能通过给极端分数增加成本的方式增加“群体智慧”，而且在存在利益的情况下效果更佳。

但是同样地，在大多数情况下人们比起打低分更倾向于打高分。打低分似乎有比打高分更高的阻碍，这可以解释为什么在大量的评价实验中，打分更偏向头部而不是中值。而如果在这种情况下再增加打低分的成本就会导致用户更加不愿意如实打出这类分数。这与理性行动理论的描述是一致的，如果我们能够识别这种决策偏差，再加上利用高成本信号理论，就可以设计平衡用户主观动机的工具，让“群体智慧”变得更加客观。

利用高成本信号设计更可靠的信息系统

综合来讲，高成本信号理论可以用于设计更可靠的，更加客观的通信系统。信号成本的存在使得整个系统中的评级人会越发“严谨”。反过来，小的样本量可以用于检测特质群体的满意度评价偏差。

这是个在在线评论领域以外也值得深究的话题，因为在分布式的社会网络中，反馈极强地依赖于有特殊意义的小样本群体信息的可靠性。高成本信号理论也可扩展到其他领域，例如帮助电子商务或部署在线评级系统获取准确的信息。这些评分系统如今饱受低质量评价的污染。

其实，这项研究的实验方法与思路是可以被复制、完善和进一步推广出去的。人不是机器，主观印象不可避免，但是我们不用强制要求人类像机器一样感知世界。仅仅需要再对人类自己了解一点，再加上一点精妙的设计，使用设计过的评级系统可以作为一个滤波器，我们就让群体智慧发挥它本来的力量。