郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!
arXiv:2007.04578v1 [cs.AI] 9 Jul 2020
Abstract
尽管深度RL模型显示出在最少的监督下解决各种任务的巨大潜力,但仍存在一些关键挑战,包括从有限的经验中快速学习,适应环境变化以及从单个任务中概括学习。决策神经科学方面的最新证据表明,人脑具有解决这些问题的天生能力,从而使人们对以神经科学为灵感的解决方案向样本高效,自适应且可归纳的RL算法的发展持乐观态度。我们表明,将有模型和无模型的控制自适应地结合在一起的计算模型(我们称为前额叶RL)能够可靠地编码人类学习的高级策略信息,并且该模型可以将学习到的策略推广到各种各样的任务 。首先,我们在人类参与者执行两阶段Markov决策任务时收集的82个人类受试者的数据上训练了前额叶RL,深度RL和元RL算法,其中我们实验性地操纵了目标,状态-转换的不确定性和状态-空间复杂度。
在基于潜在行为特征和参数可恢复性测试的可靠性测试中,我们表明前额叶RL可靠地学习了人类受试者的潜在策略,而所有其他模型均未通过该测试。其次,为了实证测试从最初任务中总结出这些模型所学内容的能力,我们将它们置于环境波动的背景下。具体来说,我们使用10个不同的马尔可夫决策任务进行了大规模仿真,其中潜在的上下文变量随时间变化。我们的信息理论分析表明,前额叶RL表现出最高水平的适应性和回合式编码功效。据我们所知,这是首次正式测试模仿大脑解决一般问题的方式的计算模型可以为机器学习中的关键挑战提供实用解决方案的可能性的首次尝试。