知识的融入-增强深度学习的学习 Shades of Knowledge- Infused Learning for Enhancing Deep Learning

知识的融入-增强深度学习的学习

摘要

深度学习已被证明是解决许多问题的主要技术。如果我们能够克服障碍,例如缺乏高质量的培训数据可解释性差,它将为解决更具挑战性的问题提供进一步的希望。通过将相关的概念信息注入统计,数据驱动的计算方法中,领域知识和应用程序语义的开发可以增强现有的深度学习方法。这将需要解决由于符号和统计AI技术之间的不同表示形式和抽象而导致的阻抗失配。在本文中,我们描述了一个连续性,该连续性包括将知识注入机器/深度学习体系结构的三个阶段。随着这三个阶段的不断发展,它从嵌入形式的浅注入开始,而半深注入则提高了注意力和基于知识的约束。为了最终反映出知识的更深层融合,我们在神经网络的潜在层中阐明了在不同抽象层次上融合知识的价值。尽管对浅层注入进行了深入研究,而半深层注入正在进行中,但我们认为深层知识注入是一种新的范例,它将显着提高深度学习的能力和前景。

知识的融入-增强深度学习的学习 Shades of Knowledge- Infused Learning for Enhancing Deep Learning

通过考虑每个模型捕获的信息程度,将现有工作从NLP领域按时间顺序排列为三个范例。 (a)单词嵌入。 (b)使用其他信息丰富单词嵌入。 (c)深度神经语言模型。 鉴于该领域的快速发展,我们可能没有包括2019年所有可能的例子。

与我们对知识的半深层注入的定义有关的现有工作的顺序。 我们将半深层输液的过程分为三个范例:(a)强迫方法,(b)神经注意模型和(c)基于知识的模型。 鉴于该领域的快速发展,我们可能没有包括2019年所有可能的例子。

SHALLOW INFUSION OF KNOWLEDGE 知识的浅入

我们将知识注入的第一类定义为浅层注入,即与DL模型一起使用时,完全忽略结构化知识或将其转换为扁平化中间形式的任何尝试。捕获背景信息的两个流行选择是,首先,在大型语料库上训练浅层神经体系结构或统计模型,然后将学习到的统计签名作为任务特定模型的输入
或第二,建立任务特定模型。目的直接知道任何此类背景信息。
它不需要对学习模型进行重大更改就可以吸收外部信息。相反,外部知识是作为一种预训练的模型或权重向量引入的​​,可以直接输入或与现有的神经体系结构耦合。因此,我们指出,在浅层注入中,馈入模型的信息和馈入信息的方法都是浅层的。我们重点介绍了NLP域中的三个替代方案,如图1⬆️所示,随后进行了讨论。

Word embeddings:

这是浅输液的最简单形式。 在此,目标是为模型提供仅培训数据无法提供的“背景”。 可以使用大文本格式(例如,在6B令牌上训练GloVe)获得背景信息,并在无监督的情况下训练浅层神经网络或统计模型,以捕获单词的特定领域含义。 流行的示例包括但不限于Word2Vec(跳过语法和CBOW算法)和GloVe。 将单词表示为n维向量(例如n 1⁄4 300)使它们在特定域内易于转移且与任务无关。
结果,许多语言(http://bit.do/multi-lang)和域(http://bit.do/bionlp)都可以使用许多经过预训练的单词嵌入。

Enriched word embeddings:

这类算法,
使用其他信息,例如特定领域的词典/分类法和单词的形态,可以丰富受过训练的单词嵌入。作为一种后处理技术,“改装”会在修饰嵌入时使用语义词典(例如WordNet)。例如,改型将单词“ incorrect”的嵌入强制为与其他相关单词(例如“错误”,“有缺陷的”和“假”)在嵌入空间中的嵌入相似。
“反拟合”是一种与翻新类似的方法,它在优化词嵌入时为词相关性引入了同义词和反义约束。结果,即使它们是通过反义关系联系起来的,它也可以防止“便宜”一词更接近诸如“昂贵”和“昂贵”之类的词。 FastText利用文本中的信息来改善学习的嵌入。它考虑了单词的形态-特别是子单词信息-并在学习嵌入时将单词表示为一包字符n-gram。这使拼写错误的单词,稀有单词和缩写词具有与原始形式相似的含义。此外,这还使得能够导出针对未出现在训练数据中的单词的嵌入。

Deep neural language models

深层神经语言模型:此类模型的主要区别是将深层神经体系结构与语言建模目标结合使用,即通过对语言中的单词进行概率建模来学习预测在给定上下文条件下的下一个单词。 ELMo通过捕获在句子中使用单词的“上下文”,标志着朝着这个方向迈出了重要的一步。通过训练特定任务的Bi-LSTM网络以从正反两个方向对语言进行建模,ELMo可以将一个特定的单词表示为相应隐藏层的组合。当前最先进的神经语言建模是受变压器的出现启发的-一种简单的,仅基于注意的
无需使用递归和卷积神经网络的机制。基于变压器的BERT是打破多个NLP任务记录的模型,通过训练大量文本来学习捕获长期依赖关系和上下文。进一步微调
通过专门指导学习任务而获得的知识。去年,BERT的多个基于变压器的继任者(例如RoBERTa,XLNet和Transformer-XL)取得了突破性的成果,使现代NLP朝着新的方向发展。
知识的融入-增强深度学习的学习 Shades of Knowledge- Infused Learning for Enhancing Deep Learning

SEMI-DEEP INFUSION OF KNOWLEDGE 半深的知识注入

我们将知识注入的第二类定义为半深层注入,它是一种衡量深层网络学习并通过添加结构性(例如,句子中单词之间的依存关系)或符号性(注意概率或约束)来解决阻抗失配的范例 满意度)知识。 在模型无法从文本中学习复杂的代表特征的特定任务问题中,这种方法非常有效。 此外,我们注意到两个深度学习网络的合并是将结构化学习和顺序学习结合在一起以改善预测的另一种选择(Yin等人)。 我们对针对各种NLP / NLU任务(例如事件检测,用户分类,关系提取,阅读理解等)概述的深层神经网络中知识的半深层灌注进行了不同分类。

Teacher/professor forcing

教师/教授强迫:在包括自动编码器的深度学习框架中,通过教师强迫增强了解码器的功能。在此过程中,在训练自动编码器的解码器部分时,逐个单词地馈送目标标签(非二进制而结构化的句子)。编码器提供解码器尝试学习的输入的矢量化表示。该程序首先由Williams等人讨论。并且在机器翻译,实体提取和否定检测任务方面已显示出改进(Lamb等)。在了解教师强迫的过程中,我们确定了两个关键问题:首先,在教师强迫方法中未对编码器提供的表示进行度量;其次,该模型存储了输入的模式,并且难以通过输入法进行迁移学习。训练有素的模型。例如,考虑通过教师强迫从“来自社交媒体的骚扰数据集”中学习自动编码器,该模型能否在与“社交媒体激进”相关的问题上表现良好。这是由于模型的上下文不足和适应性差。 Kursuncu等。利用特定领域的视角模型来丰富*者在社交媒体上的交流表示。提供的方法模型所需的必要知识,以最大程度地减少错误警报。在“社交媒体上的骚扰”问题的背景下,通过灌输网络欺凌的词汇知识,机器学习模型得到了潜在的改进。
教师强制模型能够通过以下方法学习输入的正确表示:
冗余:在此学习过程中,通过反向传播监视模型的信息丢失,并通过将输入复制到各层来对其进行补充。诸如跳过连接或高速公路连接之类的方法都遵循这种方法。
课程学习:强制学习的一种变体是引入训练过程中先前时间步骤生成的输出,以鼓励模型学习如何纠正自己的错误。
在教师强迫范例中,在推论过程中,当提供地面真理标签作为输入时,条件上下文在训练期间可能会有所不同。由于编码器充当生成器,解码器充当鉴别器,因此它们的独立功能会影响模型性能。此外,知识的结合是在解码器侧,与编码器无关。因此,量化在编码器端引起的信息丢失是一项挑战。我们提出的关于深层输液的方法首先进行调节,在模型中,潜在权重被错误地执行,其次,如何利用外部人工图形知识来调整权重。

Neural attention models (NAM)

神经注意模型(NAM):注意模型突出显示了特定的功能,这些功能对于基于内容的层次结构的模式识别/分类非常重要。 注意焦点的操纵可有效解决涉及大量数据的现实问题(Sun等,2017)

Learnable knowledge constraints

教授强迫形成了一个架构,在该架构中,编码器(生成器)与解码器(判别器)竞争以提高结果,从而形成对抗网络。

上一篇:LARGE SCALE IMAGE COMPLETION VIA CO-MODULATED


下一篇:Select 选择器显示内容为icon图标选项(Ant Design of Vue)