期刊名: IEEE Transactions on Pattern Analysis and Machine Intelligence
影像因子/分区:16.225/Q1
一、摘要
抽象理解人类语言是人工智能的关键主题之一。将所提出的SG-Net应用于典型的变压器编码器。在机器阅读理解、自然语言推理和神经机器翻译等常用基准测试任务上的大量实验表明了所提出的SG-Net设计的有效性。
二、结果
所构建的SG-其他前人的模型有以下优点:
1. 精度高。由注意生成的注意矩阵的中间积可以看作是大小为n × n的每一对记号之间的一组关系,其中n为序列长度,即为一个完全图。SG-Net能够最大限度地很好地保存特性的树状或图状形式,并且具有直观和可解释性。
2. 效率高。与传统的基于树的网络处理相比,SG-Net保持了Transformer的并行性,在架构结构上进行了少量修改。此外,数据处理是在模型训练之前完成的,而不是像传统方法那样将数据处理放在模型训练中。
3.轻量级。SG-Net充分利用了变压器的结构,这种改变对变压器的损害很小,可以完全集成到变压器中。
三、方法
第一步是使用编码器在向量空间中编码原始文本。解析模型主要有三大类:基于转换的、基于图的和基于语法的模型。
模型首先直接从一个支持SAN的基于transformer的编码器获取输出表示,然后从SAN表示构建一个语法引导的SAN。最后,从语法引导的SAN和原始SAN融合语法增强的表示,并传递到特定于任务的层,以进行最终的预测。
首先,我们将经过编码的表示从Transformer编码器传递给语法引导的自注意层。其次,将相应的输出与原始编码器输出聚合在一起,形成语法增强的表示。它将语法树结构信息整合到多头注意机制中,以表示每个句子的标记关系,如下所示:
我们将SQuAD 2.0开发集中的问题按照长度进行排序,然后将它们分成20个子集,按照问题长度范围和问题数量进行分割。
四、结论
本文提出了一种新的语法制导框架来增强基于强变换器的编码器。我们探索采用句法来指导文本建模,将句法约束融入到注意机制中,以获得更好的语言动机词汇表征。采用了一种称为语法引导网络(SG-Net)的双重上下文架构,它融合了原始SAN表示和语法引导的SAN表示。该设计对于目前主流的基于transformer的预训练语言表示模型尤为重要,如BERT、XLNet、RoBERTa、ALBERT等。除了句法信息外,该方法还兼容多种结构化知识作为13个显式句子级约束,提高了Transformer的表示能力。例如,可以通过引入额外的结构化知识图来建模概念关系,包括ConceptNet、DBpedia。