【Meta learning】Learning to learn: Meta-Critic Networks for sample efficient learning

2024-03-23 20:22:40

文章主要问题是解决少样本学习，灵感来自actor-critic增强学习，但可以应用于增强和监督学习。核心方法是学习一个meta-critic——神经网络的行为价值函数，学习去评判解决特殊任务的actor。对于监督学习，相当于一个可训练的任务参数损失发生器。对于增强学习和监督学习，这种方法提供了一种知识迁移途径，可以处理少样本和半监督条件。