郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
Current biology : CB, no. 11 (2020)
为了产生适应性行为,动物必须从与环境的相互作用中学习。描述控制该学习过程的算法以及它们如何在大脑中实现是神经科学的主要目标。一百多个世纪以前,Thorndike,Pavlov等人对动物学习进行了仔细且受控的观察,确定了直观的规则,使动物(包括人类)可以通过将感官刺激和动作与奖励相关联来从其经验中学习。但是,从以简单的范式解释学习到解密在丰富且动态的环境中如何解决复杂的问题已经证明是困难的(图1)。最近,这项工作已经获得了计算机科学家和工程师的帮助,他们希望在计算机中模拟智能自适应行为。在动物行为文献的启发下,AI的先驱者开发了一个严格的数学原理框架,可以在此框架内对基于奖励的学习进行形式化和研究。RL领域不仅成为机器学习和AI的福音,而且还为有兴趣破译大脑如何实施RL算法的生物学家提供了理论基础。
RL智能体解决复杂的高维学习问题的能力通过使用深度神经网络得到了显著增强(深度RL,图1)。确实,借助不断增长的计算资源,深度RL算法现在可以在许多定义完善的复杂任务上胜过人类专家,尽管仍然存在明显的差距。本入门手册的目的不是回顾快速发展的入门领域的进展,也不是比较各种算法的实现。相反,我们认为,熟悉为机器学习开发的算法可以帮助神经科学家以计算精确的方式更好地理解人和动物如何从与环境的相互作用中学习。重要的是,深度RL的发展可以帮助激发关于大脑如何实现神经电路级解决方案以应对这些挑战的新思路。
在本入门中,我们将简要回顾RL的基本概念,并讨论传统方法的一些缺点以及使用深度RL可以克服这些缺点的方法。然后,我们考虑大脑如何实施深度RL中的一些想法,具体来说就是:相对价值编码;策略正规化;并有效探索大型解决方案空间。