大脑中的值分布强化学习 | 周日直播·NeuroAI读书会

导语

神经科学和人工智能领域的多位著名学者近日发表 NeuroAI 白皮书认为，神经科学长期以来一直是推动人工智能（AI）发展的重要驱动力，NeuroAI 领域的基础研究将推动下一代人工智能的进程。文章发表后引发热议：神经科学是否推动了人工智能？未来的人工智能是否需要神经科学？

本着促进神经科学、计算机科学、认知科学和脑科学等不同领域的学术工作者的交流与合作，集智俱乐部联合北京师范大学柳昀哲、北京大学鲍平磊和昌平实验室吕柄江三位研究员共同发起了「NeuroAI」读书会，聚焦在视觉、语言和学习领域中神经科学与人工智能的相关研究，期待能够架起神经科学与人工智能领域的合作桥梁，激发跨学科的学术火花。

读书会线上进行，11月27日开始，每周日晚上19:00-21:00，持续时间预计10周。读书会详情及参与方式见后文。

分享内容简介

本次分享将介绍强化学习的历史，并以RW模型为基础，在多臂老虎机问题中实现值分布强化学习算法。继而介绍值分布强化学习在大脑中存在的证据，以及如何从回归的角度理解值分布的强化学习。最后，将讨论值分布强化学习的生物学价值，以及如何有效利用奖赏的分布以提高算法的性能。

分享内容大纲

强化学习历史与值分布强化学习简介
值分布强化学习的算法
值分布强化学习的神经实现
值分布强化学习的计算理论
值分布强化学习的生物学价值
利用值分布强化学习促进探索

主要涉及到的核心概念

1. 多臂老虎机

2. RW模型（Rescorla-Wagner Model）

3. 奖赏预测误差与多巴胺神经元

4. 相关脑区：腹侧被盖区，黑质，纹状体，眶额叶等

5. 相关算法：TD-learning，Quantile Regression, Expectile Regression

主讲人介绍

刘花卷，现就读于北京师范大学，认知神经科学与学习国家重点实验室，研究生三年级。本科毕业于同济大学。

潘登，现就读于牛津大学，实验心理学专业，博士生一年级。本科毕业于北京大学。

直播信息

时间：

2023年2月5日（本周日）晚上19:00-21:00

参与方式：

扫码参与NeuroAI读书会，加入群聊，获取系列读书会回看权限，成为NeuroAI社区的种子用户，与社区的一线科研工作者与企业实践者沟通交流，共同推动NeuroAI社区的发展。

本次分享与读书会主题的关系

本次分享涉及无模型（model-free）强化学习，即从奖赏中进行学习。传统的强化学习将奖赏表示为单一的标量值，而值分布的强化学习可以表征整个奖赏分布，继而从中提取更加丰富的信息帮助决策。值分布的强化学习不仅提升了算法的表现，也在大脑中存在相应的证据，为人工智能和神经科学的交流提供了新的机会。

主要涉及到的参考文献

1.Dabney, W., Kurth-Nelson, Z., Uchida, N., Starkweather, C. K., Hassabis, D., Munos, R., & Botvinick, M. (2020). A distributional code for value in dopamine-based reinforcement learning. Nature, 577(7792), 671-675.

Lowet, A. S., Zheng, Q., Matias, S., Drugowitsch, J., & Uchida, N. (2020). Distributional reinforcement learning in the brain. Trends in neurosciences, 43(12), 980-997

Mavrin, B., Yao, H., Kong, L., Wu, K., & Yu, Y. (2019, May). Distributional reinforcement learning for efficient exploration. In International conference on machine learning (pp. 4424-4434). PMLR.

Dabney, W., Rowland, M., Bellemare, M., & Munos, R. (2018, April). Distributional reinforcement learning with quantile regression. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.

Behrens, T. E., Woolrich, M. W., Walton, M. E., & Rushworth, M. F. (2007). Learning the value of information in an uncertain world. Nature Neuroscience, 10(9), 1214-1221.

https://github.com/lynn0503/distributional_Reinforcement_Learning/

NeuroAI读书会招募中

详情请见：

NeuroAI 读书会启动：探索神经科学与人工智能的前沿交叉领域

点击“阅读原文”，报名读书会

大脑中的值分布强化学习 | 周日直播·NeuroAI读书会

分享内容简介

分享内容大纲

主要涉及到的核心概念

主讲人介绍

刘花卷，现就读于北京师范大学，认知神经科学与学习国家重点实验室，研究生三年级。本科毕业于同济大学。

潘登，现就读于牛津大学，实验心理学专业，博士生一年级。本科毕业于北京大学。

直播信息

本次分享与读书会主题的关系

主要涉及到的参考文献

1.Dabney, W., Kurth-Nelson, Z., Uchida, N., Starkweather, C. K., Hassabis, D., Munos, R., & Botvinick, M. (2020). A distributional code for value in dopamine-based reinforcement learning. Nature, 577(7792), 671-675.

Lowet, A. S., Zheng, Q., Matias, S., Drugowitsch, J., & Uchida, N. (2020). Distributional reinforcement learning in the brain. Trends in neurosciences, 43(12), 980-997

Mavrin, B., Yao, H., Kong, L., Wu, K., & Yu, Y. (2019, May). Distributional reinforcement learning for efficient exploration. In International conference on machine learning (pp. 4424-4434). PMLR.

Dabney, W., Rowland, M., Bellemare, M., & Munos, R. (2018, April). Distributional reinforcement learning with quantile regression. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.

Behrens, T. E., Woolrich, M. W., Walton, M. E., & Rushworth, M. F. (2007). Learning the value of information in an uncertain world. Nature Neuroscience, 10(9), 1214-1221.

Sci. Adv. 综述：机器学习方法在社会和健康科学中的应用

PRX 速递：遗忘导致吸引子网络的混沌

发表评论点击这里取消回复。

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

深度学习解决计算量子化学基本问题，探索物质与光如何相互作用

Nat. Commun.速递：多任务神经网络预测多体量子态物理性质

爱因斯坦和固体量子论：还原与演生的两条道路

Nature 封面报道“连接组学”里程碑：果蝇脑的第一个完整图谱 FlyWire

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

最新文章

张江：为什么规模法则是解读世界的重要工具？

霍普夫和他的分岔理论丨陈关荣

博弈论LLM：智能体博弈能力升级策略丨周日分享·大语言模型与多智能体系统读书会

具身智能读书会启动：走向现实世界的下一代AI系统

Koopman 算符理论简介｜入门路径

大脑中的值分布强化学习 | 周日直播·NeuroAI读书会

分享内容简介

分享内容大纲

主要涉及到的核心概念

主讲人介绍

刘花卷，现就读于北京师范大学，认知神经科学与学习国家重点实验室，研究生三年级。本科毕业于同济大学。

潘登，现就读于牛津大学，实验心理学专业，博士生一年级。本科毕业于北京大学。

直播信息

本次分享与读书会主题的关系

主要涉及到的参考文献

1.Dabney, W., Kurth-Nelson, Z., Uchida, N., Starkweather, C. K., Hassabis, D., Munos, R., & Botvinick, M. (2020). A distributional code for value in dopamine-based reinforcement learning. Nature, 577(7792), 671-675.

Lowet, A. S., Zheng, Q., Matias, S., Drugowitsch, J., & Uchida, N. (2020). Distributional reinforcement learning in the brain. Trends in neurosciences, 43(12), 980-997

Mavrin, B., Yao, H., Kong, L., Wu, K., & Yu, Y. (2019, May). Distributional reinforcement learning for efficient exploration. In International conference on machine learning (pp. 4424-4434). PMLR.

Dabney, W., Rowland, M., Bellemare, M., & Munos, R. (2018, April). Distributional reinforcement learning with quantile regression. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 32, No. 1).

Schultz, W., Dayan, P., & Montague, P. R. (1997). A neural substrate of prediction and reward. Science, 275(5306), 1593-1599.

Behrens, T. E., Woolrich, M. W., Walton, M. E., & Rushworth, M. F. (2007). Learning the value of information in an uncertain world. Nature Neuroscience, 10(9), 1214-1221.

微信扫一扫,分享到朋友圈

Sci. Adv. 综述：机器学习方法在社会和健康科学中的应用

PRX 速递：遗忘导致吸引子网络的混沌

猜你喜欢

张江：为什么规模法则是解读世界的重要工具？

霍普夫和他的分岔理论丨陈关荣

博弈论LLM：智能体博弈能力升级策略丨周日分享·大语言模型与多智能体系统读书会

具身智能读书会启动：走向现实世界的下一代AI系统

Koopman 算符理论简介｜入门路径

理解复杂系统的第一步：理解非线性动力学 | Koopman分析系列课程

发表评论 点击这里取消回复。

重磅系列课程：控制科学前沿理论与方法

第三代人工智能技术基础课程

范畴论入门系列课程

复杂系统入门与实战（Python）

热门浏览

深度学习解决计算量子化学基本问题，探索物质与光如何相互作用

Nat. Commun.速递：多任务神经网络预测多体量子态物理性质

爱因斯坦和固体量子论：还原与演生的两条道路

Nature 封面报道“连接组学”里程碑：果蝇脑的第一个完整图谱 FlyWire

长序列预测 & 时空预测万字长文：一文带你探索多元时间序列预测的研究进展！

最新文章

张江：为什么规模法则是解读世界的重要工具？

霍普夫和他的分岔理论丨陈关荣

博弈论LLM：智能体博弈能力升级策略丨周日分享·大语言模型与多智能体系统读书会

具身智能读书会启动：走向现实世界的下一代AI系统

Koopman 算符理论简介｜入门路径

关注我们的公众号

发表评论点击这里取消回复。