【Meta learning】Learning to learn: Meta-Critic Networks for sample efficient learning

文章主要问题是解决少样本学习,灵感来自actor-critic增强学习,但可以应用于增强和监督学习。核心方法是学习一个meta-critic——神经网络的行为价值函数,学习去评判解决特殊任务的actor。对于监督学习,相当于一个可训练的任务参数损失发生器。对于增强学习和监督学习,这种方法提供了一种知识迁移途径,可以处理少样本和半监督条件。

上一篇:股票操作之强化学习基础(三)(Deep Q Network、Actor-critic、Policy gradients)


下一篇:强化学习A2C