目录
在大型语言模型 (LLM) 时代,知识蒸馏 (KD) 成为一种关键方法,用于将先进功能从领先的专有 LLM(例如 GPT-4)转移到开源模型(例如 LLaMA 和 Mistral)。此外,随着开源LLMs的蓬勃发展,KD 在压缩这些模型以及通过担任教师来促进其自我完善方面发挥着至关重要的作用。本文对 KD 在LLMs领域中的作用进行了全面的调查,强调了其在向较小模型传授高级知识方面的关键功能及其在模型压缩和自我改进中的效用。论文围绕三个基本支柱精心构建:算法、技能和垂直化,对 KD 机制、特定认知能力的增强及其在不同领域的实际影响进行全面检查。至关重要的是,该调查探讨了数据增强 (DA) 和 KD 之间复杂的相互作用,说明 DA 如何作为 KD 框架内的强大范例出现,以提高LLMs的表现。通过利用 DA 生成上下文丰富、特定于技能的训练数据,KD 超越了传统界限,使开源模型能够近似其专有模型的上下文熟练度、道德一致性和深刻的语义洞察特征。这项工作旨在为研究人员和从业者提供富有洞察力的指南,详细概述当前知识蒸馏的方法并提出未来的研究方向。通过弥合专有LLMs和开源LLMs之间的差距,这项调查强调了更容易获得、更高效、更强大的人工智能解决方案的潜力。相关的 Github 存储库位于 https://github.com/Tebmer/Awesome-Knowledge-Distillation-of-LLMs。
在不断发展的人工智能 (AI) 领域,专有大型语言模型 (LLM),例如 GPT3.5(Ouyang 等人,2022)、GPT-4(OpenAI 等人,2023)、Gemini(Team 等人,2023)。 ,2023)和 Claude2 已成为突破性技术,重塑了我们对自然语言处理(NLP)的理解。这些模型以其规模庞大和复杂性为特征,开启了新的可能性领域,从生成类人文本到提供复杂的问题解决能力。这些LLMs的核心意义在于它们的新兴能力(Wei et al., 2022a,b; Xu et al., 2024a),这种现象是模型展示出超出其明确训练目标的能力,使他们能够解决一系列不同的问题。具有出色熟练程度的任务。他们对上下文、细微差别和人类语言的复杂性的深刻理解使他们能够在从创意内容生成到内容生成的广泛应用中表现出色。闭源的专有大模型的潜力远远超出了当前的应用范围,有望彻底改变行业、增强人类创造力并重新定义我们与技术的互动。尽管 GPT-4 和 Gemini 等专有LLMs具有卓越的功能,但它们也并非没有缺点,特别是考虑到开源模型提供的优势时。一个显着的缺点是其可访问性有限且成本较高(OpenAI 等人,2023)。这些专有模型通常需要高昂的使用费和受限的访问权限,使得个人和小型组织难以获得它们。在数据隐私和安全方面(Wu et al., 2023a),使用这些专有的LLMs经常需要将敏感数据发送到外部服务器,这引发了对数据隐私和安全的担忧。这对于处理机密信息的用户来说尤其重要。此外,专有LLMs的通用设计虽然功能强大,但可能并不总是符合利基应用的特定需求。因此,可访问性、成本和适应性的限制对充分利用专有LLMs的潜力提出了重大挑战。与专有LLMS相比,开源模型像 LLaMA (Touvron et al., 2023) 和 Mistral (Jiang et al., 2023a) 一样带来了几个显着的优势。开源模型的主要好处之一是其可访问性和适应性。由于没有许可费用或限制性使用政策的限制,这些模型更容易被更广泛的用户使用,从个人研究人员到小型组织。这种开放性培育了更具协作性和包容性的人工智能研究环境,鼓励创新和多样化应用。此外,开源LLMs的可定制性质允许提供更量身定制的解决方案,满足通用大型模型可能无法满足的特定需求。然而,开源LLMs也有其自身的一系列缺点,主要是由于与专有LLMs相比,其规模和资源相对有限。最重要的限制之一是模型规模较小,这通常会导致使用大量指令执行现实世界任务时的性能较低(Zheng et al., 2023a)。这些模型参数较少,可能难以捕捉 GPT-4 等较大模型中所体现的知识的深度和广度。此外,这些开源模型的预训练投资通常较少。这种投资的减少可能会导致预训练数据范围缩小,从而可能限制模型对不同或专业主题的理解和处理(Liang et al., 2022;Sun et al., 2024a)。此外,由于资源限制,开源模型通常需要较少的微调步骤。微调对于优化特定任务或行业的模型性能至关重要,缺乏微调可能会阻碍模型在专业应用中的有效性。当这些模型与高度微调的专有法学硕士相比时,这种局限性变得尤为明显,后者通常是为了在各种复杂场景中表现出色而量身定制的(OpenAI 等人,2023)。
首先,认识到专有LLMs和开源LLMs之间的差异,KD 技术作为弥合这些模型之间性能差距的一种手段而蓬勃发展(Gou 等人,2021 年;Gupta 和 Agrawal,2022 年)。在这种情况下,知识蒸馏涉及利用 GPT-4 或 Gemini 等领先专有模型的更高级功能作为指导框架来增强开源LLMs的能力。这个过程类似于将高技能教师的“知识”传授给学生,其中学生(例如开源LLMs)学习模仿教师(例如专有LLMs)的表现特征。与传统的知识蒸馏算法(Gou et al., 2021)相比,数据增强(DA)(Feng et al., 2021)已成为实现LLMs知识蒸馏的流行范式,其中使用少量的知识种子促使LLMs生成有关特定技能或领域的更多数据(Taori 等人,2023)。其次,KD 仍然保留了其在压缩 LLM 方面的基本作用,使它们更加高效,而不会显着降低性能。 (Gu 等人,2024 年;Agarwal 等人,2024 年)。最近,聘请开源LLMs作为教师进行自我提升的策略已成为一种有前途的方法,可以显着提高他们的能力(Yuan 等人,2024a;Chen 等人,2024a)。图 1 说明了 KD 在LLMs背景下所扮演的这三个关键角色。
知识提炼的一个关键方面是增强技能,例如高级上下文跟踪(例如,上下文学习(Huang 等人,2022a)和指令跟踪(Taori 等人,2023))、改进与用户意图的一致性(例如,人类价值观/原则(Cui 等人,2023a),以及思想链(CoT)等思维模式(Mukherjee 等人,2023)),以及 NLP 任务专门化(例如,语义理解(Ding 等人) al., 2023a) 和代码生成 (Chaudhary, 2023))。这些技能对于LLMs期望执行的广泛应用至关重要,从休闲对话到解决专业领域的复杂问题。例如,在医疗保健(Wang 等人,2023a)、法律(LAW,2023)或科学(Zhang 等人,2024)等垂直领域,准确性和特定于上下文的知识至关重要,知识蒸馏允许开源模型通过学习在这些领域经过广泛训练和微调的专有模型,从而显着提高其性能。
LLMs时代知识蒸馏的好处是多方面的和变革性的(Gu et al., 2024)。通过一套蒸馏技术,专有模型和开源模型之间的差距显着缩小(Chiang et al., 2023; Xu et al., 2023a)甚至填补(Zhao et al., 2023a)。这一过程不仅简化了计算要求,而且还增强了人工智能操作的环境可持续性,因为开源模型以更少的计算开销变得更加熟练。此外,知识蒸馏培育了一个更容易获得和公平的人工智能景观,较小的实体和个人研究人员可以获得最先进的能力,鼓励人工智能进步的更广泛参与和多样性。这种技术的*化带来了更强大、更通用、更易于访问的人工智能解决方案,促进了各个行业和研究领域的创新和增长。
随着人工智能不断渗透到各个领域,高效、有效地从专有LLMs中提取知识到开源LLMs士的能力不仅成为技术愿望,而且成为实际需要。这种需求是由对更易于访问、更具成本效益和适应性更强的人工智能解决方案的需求不断增长,这些解决方案可以满足各种应用程序和用户的需求。该领域的调查对于综合当前知识蒸馏的方法、挑战和突破至关重要。它可以作为研究人员和从业者的灯塔,引导他们完成将复杂的人工智能功能提炼成更易于管理和访问的形式的复杂过程。此外,这样的调查可以阐明前进的道路,确定当前技术的差距并提出未来研究的方向。
论文结构:第 2 节提供了知识蒸馏的基础概述,将传统技术与LLMs时代新兴的技术进行比较,并强调了数据增强 (DA) 在此背景下的作用。 §3 深入研究从LLMs教师和核心蒸馏算法中获取知识的方法,检查从监督微调到涉及分歧和相似性、强化学习和排名优化的更复杂策略的方法。然后,第 4 节重点关注技能提炼,探索如何增强学生模型以提高上下文理解、与用户意图的一致性以及各种 NLP 任务的性能。这包括对自然语言理解(NLU)、生成(NLG)、信息检索、推荐系统和文本生成评估的讨论。在第 5 节中,论文涉足特定领域的垂直蒸馏,展示知识蒸馏技术如何在法律、医疗保健、金融和科学等专业领域中应用,说明这些方法的实际意义和变革性影响。该调查提出了第 6 节中的未解决问题,确定了知识蒸馏研究中当前的挑战和差距,为未来的工作提供了机会。最后,第 7 节中的结论和讨论综合了所获得的见解,反思了对更广泛的 AI 和 NLP 研究社区的影响,并提出了未来研究的方向。