[论文笔记]Mixtral of Experts-4. 指令微调

image-20240604142904156

使用指令数据集进行监督微调(SFT),然后使用配对反馈数据集进行直接偏好优化(DPO)来训练Mixtral - Instruct。Mixtral - Instruct在MT-Bench上达到8.30的得分(见表2),使其成为截至2023年12月最好的开放权重模型。由LMSys进行的独立人工评估结果如图6所示,显示Mixtral - Instruct优于GPT-3.5-Turbo、Gemini Pro、Claude-2.1和Llama 2 70B chat。

上一篇:HTML,CSS,JavaScript实例——3D骰子,跨纬度蠕虫,动态登录表单。-一、3D筛子


下一篇:什么是XSS攻击?什么是SQL注入攻击?什么是CSRF攻击?