关键词:非理性行为,奖励-好奇平衡,自由能原则,机器学习


论文题目:Decoding reward–curiosity conflict in decision-making from irrational behaviors
论文来源:Nature Computational Science
论文链接:https://www.nature.com/articles/s43588-023-00439-w

动物和人类通过感官系统感知外部世界,并据此做出决策。一般来说,由于环境的不确定性,以及大脑的有限计算能力和与决策相关的时间限制,他们无法做出最佳决策,而是会产生非理性的行为。例如,尽管预期回报很低,但人们还是会玩彩票和赌博。在这种情况下,他们面临着低预期奖励和对是否会获得奖励的好奇心之间的两难选择。因此,了解动物如何控制奖励和好奇心之间的平衡,对于理解整个决策过程非常重要。然而,量化奖励-好奇心平衡的方法还没有建立起来。

在这篇最近发表在Nature Computational Science的文章中,作者使用老虎机任务(slot machine task)来产生心理冲突的行为。在这个任务中,主体有两个选项,分别依不同概率提供相同的奖励。如果主体重复选择一个选项,它们将很好地识别该选项得到奖励的概率。但是另一个选项的奖励概率将是模糊的,使得主体对未选择的选项高度好奇。

为了描述这样的心理冲突,作者开发了一个基于自由能原则(FEP,free energy principle)的双选任务决策模型,称为奖励-好奇决策模型(ReCU model,reward–curiosity decision-making model),这是一个整合了识别(recognition)和行动选择(action selection)的理论,描述了基于好奇水平的非理性行为。在ReCU模型中,作者引入一个控制奖励和好奇心之间的冲突动力学机制的超参数,拓展了自由能原则。该模型可以表现出各种行为模式,如对奖励的贪婪行为、具有高度好奇心的信息搜寻行为和避免不确定性的保守行为。

此外,作者还提出了一种机器学习方法,称为逆自由能原则(iFEP)方法,来估计决策信息处理过程中的内部变量,从观察者的角度来解码奖励-好奇心冲突的动力学过程。将iFEP方法应用于大鼠行为的数据,作者成功地估计了内部变量,如好奇心的变化、对奖励可得性的认识和对该认识的信心。该文章中的解码方法可以成为识别奖励与好奇心冲突的神经基础的基本工具。此外,它可以在诊断精神障碍方面发挥作用。

图1:奖励-好奇两难选择任务的决策模型。

图2:决策模型的模拟。

图4:决策主体观察者的iFEP方案。



编译|汪显意

神经动力学模型读书会




详情请见:

500+神经动力学社区成员,邀你共同点亮更多脑科学研究的岛屿



推荐阅读

1. Nat. Mach. Intell. 速递:减少AI捷径学习帮助实现解释性交互式机器学习
2. Nat. Mach. Intell. 速递:软硬件协同实现高效的图机器学习
3. Nat. Commun. 速递:机器学习直接生成蛋白质构象集合
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会