本文是对近期有关大规模预训练语言模型方法的综述
对预训练语言模型(LM)进行微调已成为在自然语言处理中进行迁移学习的事实上的标准。在过去的三年中(Ruder,2018),微调(Howard&Ruder,2018)取代了预训练嵌入特征提取的使用(Peters et al., 2018),而预训练语言模型也更受青睐在翻译(McCann et al., 2018)、自然语言推理(Conneau et al., 2017)和其他任务,因为预训练模型提高了样本效率和性能(Zhang and Bowman, 2018)。这些方法的经验成功导致了更大模型的发展 (Devlin et al., 2019; Raffel et al., 2020)。实际上,最近的模型是如此之大,以至于它们可以在不进行任何参数更新的情况下达到合理的性能 (Brown et al., 2020)。对zero-shot来说虽然有一定的局限性,但是,为了获得最佳性能或保持合理的效率,在实践中使用大型预训练的LM时,微调将继续成为惯常的操作方式。
在标准的迁移学习过程中,模型首先使用诸如掩码语言建模之类的语言模型损失在大量未标记数据上对模型进行预训练,然后用下游任务的标记数据对预训练模型使用交叉熵损失进行微调。
标准的预训练—微调过程 (adapted from (Ruder et al., 2019))