摘要:郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
4th Conference on Robot Learning (CoRL 2020), Cambridge MA, USA.
Abstract
移动机器人的节能控制已变得至关重要,因为它们在现实世界中的应用越来越复杂,涉及到高维观察和动作空间,而这些有限的主板资源无法抵消这些空间。一种新兴的非冯 · 诺伊曼智能模型,其中在神经形态处理器上执行SNN,现在被认为是低维控制任务的最新实时机器人控制器节能且鲁棒的替代。现在,这种新的计算范例面临的挑战是扩展规模,使其能够跟上实际应用。为此,SNN需要克服其训练的固有局限性,即其脉冲神经元表示信息的能力有限以及缺乏有效的学习算法。在此,我们提出了一个群体编码的脉冲actor网络(PopSAN),该网络与使用深度强化学习(DRL)的深度critic网络一起进行了训练。遍及大脑网络的群体编码方案极大地增加了网络的表示能力,并且混合学习将深度网络的训练优势与脉冲网络的节能推断相结合。为了证明我们的方法可用于通用的基于脉冲的RL,我们展示了其与基于策略梯度的DRL方法的广泛集成,包括同策和异策DRL算法。我们在英特尔的Loihi神经形态芯片上部署了经过训练的PopSAN,并针对主流DRL算法对我们的方法进行了基准测试,以实现连续控制。为了在所有方法之间进行公平的比较,我们在OpenAI gym任务中对它们进行了验证。与在Jetson TX2上的深度actor网络相比,我们在Loihi上运行的PopSAN每次推断所消耗的能量少140倍,并且达到了相同的性能水平。我们的结果证明了神经形态控制器的整体效率,并提出了在能量效率和鲁棒性都很重要的情况下,混合RL方法可以替代深度学习。
Keywords: Spiking neural networks, Deep reinforcement learning, Energy-efficient continuous control
1 Introduction
具有连续高维观察和动作空间的移动机器人正越来越多地被部署来解决复杂的现实世界任务。鉴于其有限的主板能量资源,迫切需要设计节能解决方案来对这些自主机器人进行连续控制。基于策略梯度的深度强化学习(DRL)方法已经成功地学习了针对复杂任务的最优控制策略[1, 2]。然而,它们的最优性是以高能耗为代价的,这使其不适用于多种应用[3]。
通过在神经形态处理器上部署SNN,可以提供深度网络的节能替代方案。在这种新兴的神经形态计算范例中,内存和计算紧密集成,神经元执行基于事件的异步计算[4]。越来越多的研究表明,SNN可作为解决许多实际机器人问题的低能耗解决方案[5, 6, 7]。对于机器人控制,SNN方法通常基于奖励调节的局部学习规则[8, 9],这些规则在低维任务中表现良好,但通常在复杂问题中失败,而在缺少全局损失函数的情况下优化变得困难[10]。最近,[11]提出了一种基于策略梯度的算法来训练用于学习随机策略的SNN。但是,该算法在离散动作空间上运行,在高维连续控制问题上的使用非常有限。
为了解决SNN在解决高维连续控制问题方面的局限性,一种方法是将SNN的能量效率与DRL的最优性相结合。为此,一种流行的SNN构造方法是使用权重和阈值平衡将训练后的深度神经网络(DNN)直接转换为SNN [12]。这种方法的主要问题在于,它通常会导致脉冲网络的性能低于相应的DNN,并且还需要大量的推断时间,从而大大增加了能源成本[13]。为了克服这个问题,最近的工作提出了一种混合学习算法,其中使用DRL对具有发放率编码输入的SNN进行训练,以学习针对静态环境中移动机器人的无地图导航的最优控制策略[14]。然而,这种方法在复杂的高维任务中受挫,其中控制策略的最优性在很大程度上取决于具有有限表示能力的单个脉冲神经元的编码精度[15]。当使用较小的推断时间步骤以提高能量效率时,此解决方案的实用性甚至变得更低,因为随着神经元使用其发放率对数据进行编码,这有望进一步降低神经元的表示能力。
有趣的是,最近抽象出大脑的拓扑及其计算原理导致了SNN的设计,这些SNN表现出类似人的行为[16]并提高了性能[17]。大脑中与有效计算相关的一个关键属性是使用神经元群体来代表从感觉刺激到输出信号的信息,其中群体中的每个神经元都具有捕获一部分编码信号的感受野[18]。有关群体编码方案的初步研究表明,它能够更好地代表刺激[19],这导致了最近在训练复杂高维监督学习任务的SNN方面取得的成功[20, 21]。群体编码的有效性证明为开发有效的群体编码SNN开辟了前景,这些SNN可以学习高维连续控制任务的最优解决方案。
在本文中,我们提出了一种群体编码脉冲actor网络(PopSAN),该网络使用DRL算法进行训练,以学习针对连续控制问题的节能解决方案1。我们的PopSAN的核心在于,它能够利用可学习的感受野对单个神经元群体中观察空间和动作空间的各个维度进行编码,从而有效地提高了网络的表示能力。由于不同的控制任务需要专门的DRL解决方案[22],因此我们将PopSAN与同策和异策DRL算法集成在一起,尤其是DDPG [23],TD3 [24],SAC [25]和PPO [26],从而证明其适用于各种基于策略梯度的DRL算法。我们将训练好的PopSAN部署在英特尔的Loihi神经形态处理器上,并评估了我们在具有丰富且不稳定动态的OpenAI gym任务中使用的方法,该方法用于对连续控制算法进行基准测试。我们将其方法获得的奖励和能耗与主流DRL算法进行了比较。与Jetson TX2上的深度actor网络相比,我们在Loihi上运行的PopSAN每次推断所消耗的能源减少了140倍,同时还实现了相同水平的性能。这些结果将DRL算法引入了脉冲域,将它们缩放为神经形态解决方案,以增强在能源效率方面至关重要的学习任务。
1 代码位于https://github.com/combra-lab/pop-spiking-deep-rl
2 Methods
2.1 Population-coded Spiking Actor Network (PopSAN) embedded into DRL algorithms
2.2 Population encoding and decoding in PopSAN
2.3 PopSAN training
2.4 Energy-efficient continuous control with Intel's Loihi neuromorphic chip
3 Experiments and Results
3.1 Benchmarking PopSAN against mainstream DRL algorithms
3.2 Benchmarking PopSAN against other SNN design approaches
3.3 Learning in neuron populations
3.4 Evaluating continuous control on Loihi
4 Discussion and Conclusion
Supplemental Materials: Deep Reinforcement Learning with Population-Coded Spiking Neural Network for Continuous Control
1 PopSAN training using backpropagation
2 Hyperparameters for training regular DRL and PopSAN
3 DNN to SNN conversion method
4 Power measurement details
5 Additional ablation studies for neuron populations