智能体如何构建环境认知?世界模型学习的基础、进展与挑战|自由能原理与强化学习读书会·周日直播

导语


内容简介
内容简介
视频生成模型Sora的爆火将“世界模型”的概念引入大众的视野。那么什么是世界模型?Sora与世界模型的共通和差异之处又在何处?事实上,早在Sora出现之前,世界模型已经在强化学习领域中作为一个主流的概念被研究者们熟知,并围绕此发展出了一类主流的强化学习方法:基于模型的强化学习(Model-Based Reinforcement Learning)。
强化学习是一种通过试错与环境交互来解决序列决策问题的方法。在允许大量试错的决策任务中,强化学习表现出色。但在现实任务中,大量的试错通常是不被允许的。而基于模型的强化学习则通过构建世界模型,并在世界模型中进行试错来避免在真实世界中的试错成本,进一步推动了强化学习在实际任务中的应用。
基于模型的强化学习算法通常分为两个步骤:首先从历史数据中构建世界模型,然后使用这个世界模型导出最优行为,这与自由能原理有着高度的相关性。在模型学习中,模型与世界的交互数据学习世界模型、增强感知;在使用模型的过程中,智能体结合世界模型进行学习或规划,并影响世界。
本次读书会将围绕基于模型的强化学习展开,并对其核心的模型学习部分进行着重讨论。本次分享将从介绍其概念、问题、基础算法开始,然后对近期提出的世界模型学习算法进行综合性的介绍,最后对模型学习中尚未解决的问题以及未来的发展方向进行讨论。
内容大纲
内容大纲
-
背景 -
基于模型的强化学习框架 -
模型学习 -
模型使用 -
模型的累积误差问题 -
经典模型学习 -
世界模型学习的近期进展 -
模型结构 -
多步/多步匹配 -
自适应模型学习 -
带约束的模型学习 -
奖励一致性模型学习 -
大模型 -
讨论与未来展望
关键词
关键词
-
基于模型的强化学习 Model-Based Reinforcement Learning -
系统辨识 System Identification -
世界模型学习 World Model Learning -
累积误差 Compounding Error -
分布匹配 Distribution Matching
参考文献
参考文献
-
Luo, F. M., Xu, T., Lai, H., Chen, X. H., Zhang, W., & Yu, Y. (2024). A survey on model-based reinforcement learning. Science China Information Sciences, 67(2), 121101. -
Luo, F. M., Xu, T., Cao, X., & Yu, Y. Reward-Consistent Dynamics Models are Strongly Generalizable for Offline Reinforcement Learning. In ICLR 2024. -
Lu, Songwu, and Tamer Basar. “Robust nonlinear system identification using neural-network models.” IEEE Transactions on Neural networks (1998): 407-429. -
Hafner, Danijar, et al. Learning latent dynamics for planning from pixels. In ICML 2019. -
Zhang, Marvin, et al. SOLAR: Deep structured representations for model-based reinforcement learning. In ICML 2019. -
Janner, Michael, Qiyang Li, and Sergey Levine. Offline reinforcement learning as one big sequence modeling problem. In NeurIPS 2021. -
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS 2020. -
Janner, Michael, et al. Planning with diffusion for flexible behavior synthesis. arXiv:2205.09991 (2022). -
Ho, Jonathan, Ajay Jain, and Pieter Abbeel. Denoising diffusion probabilistic models. In NeurIPS 2020. -
Martín H, José Antonio, et al. “Reinforcement Learning in System Identification.” arXiv:2212.07123 (2022). -
Al-Hafez, Firas, et al. “LS-IQ: Implicit Reward Regularization for Inverse Reinforcement Learning.” In ICLR 2023. -
Xu, Tian, Ziniu Li, and Yang Yu. “Error bounds of imitating policies and environments for reinforcement learning.” IEEE Transactions on Pattern Analysis and Machine Intelligence 44.10 (2021): 6968-6980. -
Wu, Yueh-Hua, et al. “Model imitation for model-based reinforcement learning.” arXiv preprint arXiv:1909.11821(2019). -
Lee, Kimin, et al. “Context-aware dynamics model for generalization in model-based reinforcement learning.” In ICML 2020. -
Asadi, Kavosh, Dipendra Misra, and Michael Littman. “Lipschitz continuity in model-based reinforcement learning.” In ICML 2018. -
Park, Seohong, and Sergey Levine. “Predictable MDP Abstraction for Unsupervised Model-Based RL.” arXiv preprint arXiv:2302.03921 (2023).
主讲人
主讲人

罗凡明,南京大学人工智能学院三年级博士生,导师是俞扬教授。研究方向为基于模型的强化学习与元强化学习,近期的研究兴趣集中于学习可自适应的策略、模型与奖励函数。
个人主页:www.lamda.nju.edu.cn/luofm
参与方式
参与方式

斑图地址:https://pattern.swarma.org/study_group_issue/628
自由能原理与强化学习读书会招募中

点击“阅读原文”,报名读书会





