摘要


研究显示,人们往往被结构和规律性所吸引。本研究提出假设认为,即使某种规律并不带来额外价值,决策者在试图最大化收益的过程中,仍可能被其吸引。基于这一前提设计的算法,在一场旨在引导个体偏好的国际挑战赛中表现优异,超越了所有其他参赛算法。该算法通过为其中一个选项(而非另一个)分配奖励,形成一种不断演化的、但易于追踪的规律模式,从而诱导决策者对有规律选项的偏好比例达到2:1,尽管这种偏好最终并未带来实际优势。研究结果表明,人类确实会赋予“规律性”本身一定的价值,也进一步说明定性方法在理解人类决策行为方面的有效性。此外,仅依赖于奖励学习的决策模型可能是不完整的。


关键词:决策偏差、规律性偏好、行为引导、结构化奖励、算法干预、选择工程竞赛、强化学习模型

图片

赵思怡丨作者

彭晨丨审校



论文题目:Using an algorithmic approach to shape human decision-making through attraction to patterns

发表时间:2025年5月2日

论文地址:https://www.nature.com/articles/s41467-025-59131-4

发表期刊:Nature Communications



如果你对大模型时代,人机如何交互与协作感兴趣,那强烈推荐你加入集智俱乐部最近策划的「大模型时代下的人机交互与协同」读书会


图片




在日常生活中,我们似乎天生就对“有规律”的事物情有独钟——从节奏感强烈的音乐到井然有序的日程安排,甚至是重复性强的社交反馈。这种对结构和可预测性的偏好,是否也能被算法捕捉并加以利用,进而悄无声息地改变我们的决策行为呢?近期,Nature Communications上发表的一项研究提出了一个充满启发性的问题:人类对规律性的偏好,能否成为一种操纵行为决策的工具?研究团队通过一种名为“选择工程竞赛”(Choice Engineering Competition, CEC)的实验框架,以及一款设计巧妙的算法RaCaS(Regularity as Carrot and Stick),探索了仅凭“奖励的结构性”就能引导人类做出特定选择的可能性。





实验范式:衡量规律的价值




CEC是一种开放式的实验框架,旨在比较不同算法在引导人类选择方面的效果。参与者需要完成100次二选一的任务,在不知情的情况下尝试最大化获得奖励的机会。每次选择后系统会立即反馈是否获得奖励。尽管两侧选项的总奖励次数保持一致(每侧25次,每次1美分),但奖励出现的时间和顺序由不同的算法控制。这为算法提供了塑造行为偏好的机会,它们无需增加目标选项的实际收益,只需通过“奖励呈现方式”来影响参与者的判断。


图1:CEC实验界面与任务设置:参与者在屏幕上面对两个选项(本图中为黑色和白色“侧边”),需完成100次二选一的任务。他们并不知道,这些奖励何时出现、出现在哪一侧,完全由算法控制。


在此背景下,研究团队提出了RaCaS算法用于探讨这样一个问题:如果规律本身具有强化作用,那么我们能否通过制造“奖励的规律性”,就让人们偏向某一选择?





RaCaS算法:用规律做“胡萝卜与大棒”




RaCaS(Regularity as Carrot and Stick)是一种利用人们偏好可预测和有规律序列的心理特征,来影响其决策行为的算法。RaCaS的设计基于三个心理学假设:

  1. 规律性本身具有正向强化作用;

  2. 规律的中断会引发负向情绪或惩罚感;

  3. 在不确定环境中,人类倾向于维持已有认知假设。


与那些不随用户行为变化的“静态策略”不同,RaCaS 会根据参与者的实时选择动态调整奖励发放方式,从而保持参与度,并增强对行为的引导效果。当参与者选择目标选项(Bias+)时,系统会呈现一个具有结构性的奖励序列,且奖励之间的间隔逐渐拉长(间隔范围为1至4次选择)。若选择非目标选项(Bias−),则初期不会获得奖励,且原本与Bias+相关的规律性也会被中断,从而起到惩罚作用。


图2:RaCaS算法原理示意图


基于这些前提,RaCaS通过动态调整奖励发放节奏,在参与者持续选择目标选项时,逐步构建出一个具有结构感的奖励序列。一旦参与者切换至非目标选项,该奖励序列即刻中断,规律感消失。只有当参与者重新回到目标选项并持续选择时,序列才会恢复。此外,为了满足奖励总数不变的要求,RaCaS将非目标选项的奖励延迟到任务后期,并安排在参与者最不易察觉的时间点发放。





实验结果:规律性足以引发显著行为偏好




实验结果显示,RaCaS的效果十分显著。在超过260名参与者中,其引导目标偏好的平均比例达到69.8%。也就是说,在奖励完全相等的前提下,参与者几乎以2:1的比例偏向RaCaS设定的目标选项。这一效应量(Cohen’s d = 1.16)在行为科学研究中属于较高水平。


图3:RaCaS算法产生行为偏好的效果展示(RaCaS使更多参与者表现出更强的目标偏好)


这意味着,参与者在未意识到被操控的情况下,仅仅因为奖励呈现出一定的可预测性,就做出了系统性偏向的行为选择。RaCaS无需增加目标选项的实际收益,只需营造出“规律存在”的假象,便足以影响人类的决策过程。





自我强化的认知偏差:

以牺牲收益换取心理安慰




RaCaS显著提高了目标选项的选择频率,却并未提升参与者的总体收益。相反,研究发现偏好越强的参与者反而获得的总奖励越少。这是因为随着对目标选项的持续偏好,参与者减少了对非目标选项的探索,而RaCaS恰好将这些奖励隐藏在参与者最不愿意尝试的时间段内。久而久之,参与者形成了“非目标选项无价值”的错误认知,进一步削弱了探索意愿,形成一个负性循环。


图4:RaCaS及其他算法下参与者因偏好产生的收益代价(结果显示,对任何选项都无明显偏好的参与者,其实际获得的奖励最多。)





算法行为引导的新路径与伦理警示




这项研究不仅揭示了人类行为中的有趣现象,也为“算法行为引导”技术提供了新的方法论启示:行为偏差并非必须通过改变结果来实现,而是可以通过结构性安排加以诱导。然而,正如论文作者所强调的那样,这种操控方式的隐蔽性也带来了潜在的伦理风险。在这个由算法主导信息结构的时代,我们不仅要思考“我们做了什么选择”,更要追问:“这些选择是如何被安排成这个样子的”。



「大模型时代下的人机交互与协同」

读书会


集智俱乐部联合中国科学技术大学教授赵云波、华东师范大学副教授吴兴蛟两位老师共同发起「大模型时代下的人机交互与协同」读书会。本次读书会将探讨:


人类智能和机器智能各自的优势有哪些?智能边界如何?如何通过更有效的标注策略和数据生成技术来解决数据稀缺问题?如何设计更加高效的人机协作系统,实现高效共赢的效果?如何提高机器决策的可解释性与透明性,确保系统的可信度?如何通过多模态协作融合不同感知通道,应对复杂的决策任务?


读书会计划从7月5日开始,每周六晚19:00-21:00进行,预计持续约8周。具体时间社群通知,诚挚邀请领域内研究者、寻求跨领域融合的研究者加入,共同探讨。


图片


详情请见:人类与机器的智慧碰撞:人机协同的智能时代读书会启动



推荐阅读
1.重磅综述:224篇机器学习领域“人在环路”研究速览
2.Nature子刊多篇最新文章速递:与大模型交互过程中的心理学
3.Agent AI:多模态交互的新地平线
4. 涌现动力学如何用来分析复杂系统? | 新课上线
5. AI时代的学习:共探人类学习的复杂性

6. 探索者计划 | 集智俱乐部2025内容团队招募(全职&兼职)

7. 系统科学前沿十讲:理解自然、生命与社会的复杂性



点击“阅读原文”,报名读书会