关键词:探索与利用,感觉运动控制,强化学习
Mode switching in organisms for solving explore-versus-exploit problems
https://www.nature.com/articles/s42256-023-00745-y
在觅食、强化学习和感觉运动控制等多种情境中,生物需要在付出高成本的行动以获取信息(“探索”)与利用已有信息达成目标(“利用”)之间做出权衡。从生物个体及群体的运动模式切换中提炼规律,将有助于启发相关自主无人机的算法设计。要找到探索与利用之间的理想平衡在计算上极为困难,因此需要启发式的解决方案。
近期发表在Nature Machine Intelligence的论文中,研究者发现电鱼Eigenmannia virescens在进行避难所追踪任务时,采取了一种特殊的模式切换策略,来解决探索-利用的矛盾,同一类别的动作(前后游泳)既被用于收集信息也被用于实现任务目标。进一步,研究者在从变形虫到人类10种架构差异巨大、感知模式不同(包括视觉、听觉、嗅觉、触觉和电感知)的生物中,都观察到了同样的模式切换策略。这种策略依赖于感知的“显著性”,即随着感知显著性的增加,目标明确的“利用”动作增加,获得丰富信息的“探索”行为减少。
进一步,研究者提出了一种基于状态不确定性的模式切换启发式策略,它能够复现生物体独特的速度分布,解释感知显著性如何调节行为,并在消耗更少能量的情况下仍然优于经典的持续激励方法。这种模式切换启发式策略为理解生物有目标探索行为提供了新视角,同时也为提高状态估计和机器人控制效率提供了新框架。
图1 模式切换策略的普遍性。图为10个物种执行任务,使用视觉、听觉、嗅觉、触觉和电感知5种感知方式,其运动模式切换方式具有统一性。
集智斑图顶刊论文速递栏目上线以来,持续收录来自Nature、Science等顶刊的最新论文,追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能,每周通过微信服务号「我的集智」推送论文信息。扫描下方二维码即可一键订阅:
推荐阅读