关键词:强化学习,奖励分配问题,学习机制



论文题目:Dynamic behaviour restructuring mediates dopamine-dependent credit assignment
论文来源:Nature
论文地址:https://www.nature.com/articles/s41586-023-06941-5

想象一下,你正在教一只狗玩捡球游戏。你扔出一个球,你的狗在后面冲刺,捡起球,然后跑回来。然后,你用食物奖励气喘吁吁的小狗。但现在对你的狗狗来说,真正的诀窍来了:找出是哪个环节获得了奖赏。科学家将此称为大脑中的“奖励分配问题”(credit assignment)

动物在探索新环境时会表现出多种多样的行为,并能学会哪些行为或行为序列能产生积极的结果。遇到奖励时释放多巴胺对于强化产生奖励的行为至关重要。然而,要了解在连续行为中如何为产生多巴胺释放的确切动作分配奖励一直是个挑战。本文采用一种新的自我刺激范式(self-stimulation paradigm)研究了这一问题,其中特定的自发动作会触发多巴胺能神经元的光遗传刺激。多巴胺自我刺激能迅速、动态地改变整个行为的结构。

最初的刺激不仅强化了刺激产生的目标动作,还强化了与目标动作相似的动作和刺激前几秒钟发生的动作。重复配对使行为逐步完善,从而锁定目标。对动作序列的强化进一步揭示了细化的时间依赖性。自发相隔较长一段时间的动作配对促进了逐步的奖励分配,其中最接近刺激的动作在早期得到完善,而较远的动作则在随后得到完善。多巴胺不仅能发出奖励信号,还能对一系列行为进行微调,随着时间的推移,这些行为会变得更加集中和精确。

因此,回溯强化机制不仅能促进强化,还能逐步完善整个行为,从而为导致多巴胺释放的特定动作和动作序列的奖励分配。这项研究对教育和人工智能等领域具有重要意义,让人们深入了解大脑错综复杂的学习机制。

这一发现可能会影响教育和人工智能(AI)等多个领域,例如,在课堂上允许探索、犯错和逐步完善可能更符合我们大脑与生俱来的学习过程。在人工智能领域,这些见解可能会带来更复杂、更高效的学习系统。通过更好地复制生物学习过程,我们可以创造出更善于适应新数据和新情况的人工智能。




编译|郭瑞东

神经动力学模型读书会




详情请见:

500+神经动力学社区成员,邀你共同点亮更多脑科学研究的岛屿



推荐阅读

1. 大脑对时间的弹性感知,竟然和强化学习中的奖励有关
2. 为何有人沉迷赌博?从非理性行为解读决策中的奖励-好奇冲突 | Nat.Comput.Sci.速递
3. 动物是如何学习的?线虫神经连接组里有答案!
4. 张江:第三代人工智能技术基础——从可微分编程到因果推理 | 集智学园全新课程
5加入集智学园VIP,一次性获取集智平台所有内容资源
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会