深度强化学习的前景：帮助机器掌控复杂性

2021-08-18 2,705 0

导语

现有的制造和运输系统庞大、关联且脆弱，通过学习大规模机器编组的涌现行为，深度强化学习能否帮助我们适应更大的系统性变化？

数据实战派 | 来源

深度强化学习，即机器通过测试其行为后果来学习的方法，是人工智能最有前途和影响力的领域之一。它将深度神经网络与强化学习结合在一起，可以通过训练实现多个步骤的目标。

它是自动驾驶汽车和工业机器人的重要组成部分，而自动驾驶汽车和工业机器人必须安全、准时地在复杂的环境中运行（例如，Covariant 和 Ambi Robotics 等初创公司正在使用强化学习来控制机械臂，而特斯拉等汽车制造商则使用它来帮助驾驶车辆）。

大多数机器学习算法擅长感知任务，这些任务需要一个人在一秒钟内完成，例如识别声音或人脸。但是深度强化学习可以学习某些行为的战术序列，比如赢得棋盘游戏或交付包裹。

这些战术序列更接近我们认为的实际智能行为。因为，如果我们说某人很聪明，我们很少指他们可以识别面孔，通常的意思是他们知道如何实现目标。

1. 复杂的转向系统

令人印象深刻的是，强化学习不仅可以控制单个机器，它也能指挥整个机器管弦乐队，引导复杂系统提高性能，安排车队并协调机器人团队。

复杂理论描述了由许多联锁部分组成的变化系统，这些部分会根据输入的微小变化产生令人惊讶的结果（就像飓风中的蝴蝶效应）。在该理论中，有一种叫做涌现行为(Emergent behavior)的概念，当系统中的许多小组件将自己组织成更大的、更大规模的可感知模式时，涌现行为就会出现。飓风、蚁群和鸟群都是小单位自我组织成更强大的整体的好例子。

通过深度强化学习，机器人和自动驾驶汽车能够在更大的复杂系统（例如交通或全球供应链）中表现出涌现行为。也就是说，这些机器开始表现得像团队一样，即使它们从未被明确指示这样做。通过培训，他们了解到团队合作会带来更好的结果。在工厂中，这可能意味着一个 AGV 机器人会牺牲自己的速度，以便让更高优先级的有效载荷通过，从而提高系统的整体吞吐量。

在很长一段时间内，复杂理论是一种思考起来很有趣但很难实施的理论。深度强化学习使复杂理论变得可行，因为它允许我们创造和引导涌现行为。它使我们能够应对过于庞大而人类无法完全理解的系统。深度强化学习对于复杂性的作用就像基因工程对于进化的作用，即：杠杆和加速。

人类似乎需要一点杠杆和加速。事件的迅速发展似乎使我们对所处的复杂系统失去了控制，而深度强化学习能够让我们更好地掌控其中的一些复杂问题。

2. 处理外部冲击和可变数据

大多数决策系统都会遇到数据意外变化的问题，它们接受过在某些情况下做出决定的训练，这些系统很脆弱，当发生不可预见的事情时它们就会崩溃。深度强化学习能够以一种一般化的方式对可变数据和不可预见事件作出反应。

这样做的一个原因是，在模拟中您可以针对以前从未发生过且历史数据中不存在的事件对其进行训练。模拟操作在帮助制造业将自动机器人和车辆从测试带到真实场景中发挥了重要作用。

强化学习适应现在发生的事情，并且可以快速更新其对环境的期望和理解。这意味着人工智能驱动的优化和决策可以应用于许多以前无法解决的新问题上。这意味着我们将能够让机器更智能，而在此之前我们则依赖脆弱的规则和直觉。

3. 掌控供应链的复杂性

强化学习对不可预见事件的反应能力使其作为现代供应链问题的解决方案变得越来越有前景。

就在去年，全球和国家供应链受到的外部冲击包括 COVID-19、经济封锁、地缘政治僵局、极端天气事件（德克萨斯州的风暴）以及一艘 20 万吨的船舶阻塞了苏伊士运河等等，直至今日世界经济仍未复苏。

供应链——从上游的工厂开始，贯穿港口、铁路站场和仓库，再到零售——是一个庞大而复杂的系统。这些系统需要具有适应性，但现实的新闻告诉我们它们还不完全具备这样的性能。

深度强化学习用武之地的一个用例是辅助解决能源消耗问题，它可以帮助我们生产更清洁和可再生的能源，在供应链中更有效地使用能源，更智能地消费能源，深度强化学习以用来应对气候变化。

电力网络只提供电能。然而可再生能源比传统能源更易发生变化，因为它们的输出取决于天气。

深度强化学习可以为无人机、机器人以及太阳能电站的维修人员注入更好的决策能力。

它可以帮助发电厂制定旋转、补给和备用供应计划，以及平衡化石燃料发电与多样化可再生能源供应。它可以校准分布式系统中家庭可再生能源的产生、存储和消耗方式，从而降低电网负载，还可以帮助能源密集型工厂预测并提前应对电价的飙升。

类似的系统控制也可以应用于农业，机器人可以喂养牲畜、收割庄稼，弥补劳动力短缺；也可以用于采矿业，矿场自动牵引卡车比乘用车走得更远，全自动运输卡车和钻探系统通过降低燃料和劳动力成本，同时兼顾操作安全性来创造更高的效率。

总之，深度强化学习不仅是智能机器人的智能核心，它还能够充当更大系统的控制塔，这是当今社会面临的关键问题之一。通过学习大规模机器编组的涌现行为，深度强化学习可以帮助我们适应更大的系统性变化，以保持我们的系统正常工作。这一点很重要，因为我们现有的制造和运输系统庞大、关联且脆弱，使它们更加强大是未来几年的关键挑战。

Reference：
https://bdtechtalks.com/2021/07/22/deep-reinforcement-learning-complexity/

复杂科学最新论文

集智斑图顶刊论文速递栏目上线以来，持续收录来自Nature、Science等顶刊的最新论文，追踪复杂系统、网络科学、计算社会科学等领域的前沿进展。现在正式推出订阅功能，每周通过微信服务号「集智斑图」推送论文信息。扫描下方二维码即可一键订阅：

推荐阅读

点击“阅读原文”，追踪复杂科学顶刊论文