https://arxiv.org/pdf/2308.06259
这篇论文介绍了一种名为“指令反向翻译”(instruction backtranslation)的方法,用于通过自动标记人类书写的文本和相应的指令来构建高质量的指令跟随语言模型。这里是一个通俗易懂的解释:
一、背景
通常,训练一个高质量的指令跟随语言模型需要大量的手工标注的数据,这些数据非常昂贵且耗时。为了解决这个问题,作者提出了一种自动化的方法,通过“自我增强”和“自我筛选”来生成和选择高质量的训练数据。
二、方法概述
整个方法分为两个主要步骤:
-
自我增强(Self-Augmentation):
-
首先,使用一个小量的种子数据(即已标注好的指令和输出对)来微调一个基础语言模型(例如LLaMa)。
-
接下来,用微调后的模型生成候选的训练数据,这些数据来自未标注的文本(称为“增强数据”)。
-
-
自我筛选(Self-Curation):
-
在初始微调模型的基础上,选择高质量的增强数据用于下一次迭代的训练。
-
经过多次迭代,每次选择出更高质量的数据,最终得到一个更强的模型。
-