[论文笔记]Mixtral of Experts-4. 指令微调

2024-06-09 10:01:02

使用指令数据集进行监督微调(SFT)，然后使用配对反馈数据集进行直接偏好优化(DPO)来训练Mixtral - Instruct。Mixtral - Instruct在MT-Bench上达到8.30的得分(见表2)，使其成为截至2023年12月最好的开放权重模型。由LMSys进行的独立人工评估结果如图6所示，显示Mixtral - Instruct优于GPT-3.5-Turbo、Gemini Pro、Claude-2.1和Llama 2 70B chat。

码农公寓

相关文章