关键词:自适应主体,模块化,多重自我,深度强化学习



论文题目:Having multiple selves helps learning agents explore and adapt in complex changing worlds

期刊来源:PNAS

斑图链接:https://pattern.swarma.org/paper/2d261f7c-1a02-11ee-8680-0242ac17000d


在不断变化的环境中满足各种相互冲突的需求对于任何适应性主体都是一个基本挑战。近日发表于 PNAS 的这篇文章展示了以模块化的方式将主体设计为子主体的集合,每个子主体专门应对一种独立的需求,从而有力地增强了主体满足总体需求的能力。


作者们使用深度强化学习来研究一个生物学相关的多目标任务:持续维持一组生理变量的稳态。然后在各种环境中进行模拟,并比较模块化主体相对于标准的单一主体(即,旨在使用单一的总体成功度量以综合方式满足所有需求的主体)的表现。


模拟显示,模块化主体 a)表现出一种内在的和涌现的探索形式,而不是由外在强加的探索;b)对非平稳环境中的变化具有强大的鲁棒性,c)随着相互冲突的目标数量的增加,其维持稳态的能力可优雅地扩展。支持性分析表明,对不断变化的环境和日益增加的需求的鲁棒性,来自于模块化体系结构所提供的内在探索和表征高效性。


这些结果表明,行为主体适应复杂变化环境的规范性原则,也可以解释为什么人类长期以来被描述为由“多重自我”组成。


图1. 模块化与单一主体的对比示意图。c展示了自适应主体维持稳态的任务,主体在网格世界中移动,搜索可以补充其内部统计信息,获得不同资源的密度(黄色),之后每个模块分别给出行动建议。


图2. 具有固定资源位置的环境中单一主体与多模块主体的在维持稳态上的性能对比。a)随着时间推移,主体随机移动的步长下降;b)单一主体可以通过学习实现动态平衡;c)使用四个退火方案进行测试;d)单一主体与模块化主体学子过程中的平均状态曲线,插图对应了不同区域状态值与设定值的差,可以看到模块化主体更快的收敛到定点,说明其维持稳态的能力更好;e)不同退火步骤时的稳态差值,模块化主体表现更好;f)消融实验( ablation experiment)测试的结果,内在探索影响模块化主体,其中行动只有当某个特定模块采取其首选操作发生改变。这使得模块化主体依赖于退火,表明内在探索是作为外在探索被重新引入的。



编译|郭瑞东

AI+Science 读书会



详情请见:
人工智能和科学发现相互赋能的新范式:AI+Science 读书会启动


推荐阅读

1. PRL速递:有限尺寸自适应动态网络中的异相成核
2. PRL 速递:宽量子神经网络动力学的分析理论
3. PRL速递:在耗散量子神经网络上训练机器学习模型
4. 《张江·复杂科学前沿27讲》完整上线!
5. 成为集智VIP,解锁全站课程/读书会
6. 加入集智,一起复杂!


点击“阅读原文”,报名读书会