带隐状态的强化学习世界模型|周日·因果涌现读书会
导语
本次分享是对《Recurrent world models facilitate policy evolution》和《Mastering Atari with Discrete World Models》两篇论文的解读,尝试从机器学习多尺度自动建模的视角建立因果涌现理论与强化学习状态抽象(表征)之间的联系,介绍两个基于VAE的强化学习世界模型相关工作:world models 和 DreamerV2,从系统微观动力学中学习粗粒化的宏观动力学,并在学到的宏观系统动力学基础上通过强化学习算法进行更好的策略学习。
因果涌现读书会第二季主要围绕追根溯源、因果涌现、因果表示学习、机器学习多尺度自动建模、量子因果五大主题来探寻涌现、因果科学和机器学习这三大主题之间的联系。自2022年5月22日开始,每周日晚上19:00-21:00举办,持续时间预计7-8周。欢迎对本话题感兴趣的朋友报名参加!
跟读书会主题之间的关系
跟读书会主题之间的关系
与读书会之间的关系:本次分享内容属于因果涌现读书会中的机器学习多尺度自动建模专题,带隐状态的强化学习世界模型从微观状态动力学中学习粗粒化的宏观状态动力学,是一种多尺度的动力学学习。
报名内容简介
报名内容简介
这次分享尝试从机器学习多尺度自动建模的视角建立因果涌现理论与强化学习状态抽象(表征)之间的联系。强化学习中的马尔科夫状态转移图可以看做因果图,带隐状态动力学的强化学习世界模型即是对状态空间进行粗粒化学习更抽象的状态表征,这一点和因果涌现中从微观状态到宏观状态的涌现类似。本次分享会介绍两个基于VAE的强化学习世界模型相关工作:world models 和 DreamerV2,从系统微观动力学中学习粗粒化的宏观动力学,并在学到的宏观系统动力学基础上通过强化学习算法进行更好的策略学习。
【大纲】
-
因果涌现介绍
-
Eric Hoel因果涌现理论
-
因果涌现理论中“涌现“的概念辨析
-
因果涌现与强化学习的联系
-
强化学习状态转移图——对应因果图
-
强化学习状态抽象
-
基于模型的强化学习(世界模型)
-
模型的三个作用
-
基于模型的强化学习模型——Dyna
-
论文解读:world model with latent dynamics
-
World models
-
DreamerV2
-
总结与讨论
-
马尔科夫决策过程 MDP
-
强化学习 reinforcement learning
-
世界模型 world model
-
变分自编码器 VAE
主讲人介绍
主讲人介绍
牟牧云,北京师范大学系统科学学院博士在读,导师张江老师。研究方向为复杂系统自动建模与决策、强化学习。
参考文献
[1]Danijar Hafner, Timothy Lillicrap, Mohammad Norouzi, et al. Mastering Atari with Discrete World Models. arXiv:2010.02193, 2022( arXiv:2010.02193v4)
[2]David Ha, Jürgen Schmidhuber.Recurrent world models facilitate policy evolution. arXiv:1809.01999 ,2018(arXiv:1809.01999v1)
报告参与信息
报告参与信息
参与方式:
-
集智俱乐部 B 站免费直播,扫码可预约
-
文末扫码付费参加因果涌现读书会第二季可加入腾讯会议,可提问交流,加入群聊,获取回看地址及更多学习资料,成为因果涌现社区种子用户,与因果涌现社区的一线科研工作者沟通交流,共同推动因果涌现社区的发展
因果涌现读书会第二季招募中
跨尺度、跨层次的涌现是复杂系统研究的关键问题,生命起源和意识起源这两座仰之弥高的大山是其代表。而因果涌现理论、机器学习重整化技术、自指动力学等近年来新兴的理论与工具,有望破解复杂系统的涌现规律。同时,新兴的因果表示学习、量子因果等领域也将为因果涌现研究注入新鲜血液。
点击“阅读原文”,报名读书会