更多深度文章,请关注:https://yq.aliyun.com/cloud
介绍
在本月初我在温哥华出席的ACL(国际计算语言学协会 (ACL,The Association for Computational Linguistics) )时Joakim Nivre宣布:“NLP正在蓬勃发展”。参加人数众多的人士认为,学术界对NLP的兴趣已经处于历史最高点,主要是因为深度学习的成功。
然而,我参加ACL时注意到的一个研究人员的焦虑,因为一个领域正在快速发展转型。研究人员对是否将旧的NLP算法遗留下来还是抛弃,他们产生了焦虑!神经网络是我们需要的唯一技术吗?我们如何做好科学,论文发表在arXiv上算是真的成功吗?
虽然这些问题在ACL上不时出现,但研究人员整体的状态仍然是积极的。在2017年的ACL,NLP社区继续热情地接受深度学习。在这篇文章中,我将就NLP研究发展的趋势发表自己的看法。
关于这篇文章
在接下来的两篇文章中,我会阐述在会议(及其共同的活动)中,我通过论文,演讲和讨论上观察到的四个NLP的研究趋势。它主要集中在深度学习,序列模型,序列到序列框架。第一部分将探讨两个相互关联的趋势:语言结构和词语表达。
趋势1:语言结构回归(Linguistic Structure)
最近深度学习的复兴已经强调了NLP的简单统一范式:语句只是单词序列(language is just sequences of words)。根据这个逻辑,任何更深的网络结构都是不必要的,只需训练一个RNN的 end-to-end,随机梯度下降就能找出答案!虽然这种方法已经迅速地获得了巨大的成功,但其局限性正变得越来越明显。在2017年的ACL,几位著名研究人员反对“语句只是单词序列”的逻辑,并提出了理论,既实用又有原则。那么为什么NLP应该重新回到语言结构呢?
原因1:减少搜索空间
米雷拉·拉帕拉(Mirella Lapata)质疑了RNN序列到序列框架的霸权地位。在她非常有趣的主题演讲中,认为所有的语言特征都应该被丢弃。相反,她得出结论:语言结构正在归来,并通过示例提供了一个例子来解释。她认为语言结构可以减少输出的搜索空间,从而更容易地生成良好的输出。
例如,代码生成涉及“生成前10个平方数的列表”的自然语言语句映射到相应的代码片段,例如Python中的“[x ** 2 for x in range(10)]”。已经尝试使用标准序列到序列方法完成这个任务,该方法将代码简单地称为标记序列,而不是其底层树结构。这使得生成任务在所有标记序列的整个输出空间上是无约束的搜索。搜索任务容易产生不正确的输出(例如,解码器可能生成不匹配括号的代码)。在ACL论文中,Yin和Neubig和Rabinovich等人 采取结构化预测方法,直接生成底层的抽象语法树。这种方法将搜索空间限制在格局良好的底层树上,消除了不合格的输出。
语言结构不仅对于具有代码生成和语义解析等高度形式化的输出任务具有明显的帮助,而且它也可以帮助减少不太明显的任务的搜索空间,如cloze式阅读理解。Xie和Xing构造了一个只探索这些节点的系统,他们认为这比浏览文档中探索所有可能的节点要容易得多。
原因2:语言支架(Linguistic scaffolding)
诺亚史密斯在主旨演讲中反对他所谓的“全南瓜饮食”——线性变换+挤压函数(又称神经网络)作为NLP的唯一模型。相反,他鼓励大家思考NLP模型的归纳偏差,即模型的基本假设,以及这些假设如何影响他们学习的内容。
史密斯特别强调了多任务学习的力量,并将它视为引入理想的归纳偏差的一种方法。ACL看到几篇论文成功地采用了这种方法,特别是Eriguchi等人和吴等人为NMT设计了新的混合解码器,它使用shift-reduce算法来同时生成和解析目标序列。
NMT +解析系统的联合,似乎优于序列顺序系统,也可能受益于减少搜索空间。对于长句子,NMT性能不佳,联合解析输出可以消除来自搜索质量差的输出,从而允许搜索在更好质量的候选者之间进行选择。
原因3:句法近因>连续近因
克里斯·戴尔(Chris Dyer)认为,将语言结构纳入深度学习领域是非常重要的。像诺亚·史密斯一样,他也要求注意顺序方法中固有的归纳偏差,他认为RNN对顺序回归具有归纳偏倚,而语法指导的层次结构(如递归NN和RNNGS)对语法近似性具有归纳偏倚。戴尔认为语言本质上是层次性的,结论是句法近因是对顺序近因的一种优选的归纳偏差。
在ACL中,有几篇文章指出,RNN明显无法捕获远程依赖关系,而是使用递归模型可以进行改进。例如,在用语法感知编码器和解码器进行改进的神经机器翻译中。他们发现使用递归编码器可以提高整体性能,对于较长的句子而言,改进的程度更大。
期待
虽然语言结构复苏,但仍有一些障碍,因为实施多任务学习是繁琐的。非顺序架构在GPU上更难以并行化(但是新的动态库提供更简单和更有效的实现方法)。结构化预测任务的监督学习可能会受到缺乏并行数据的阻碍。幸运的是,在2017年的ACL都Liang等人。和Iyyer等人 使用弱势监督通过语义解析来执行任务,注意它是无需访问分析本身。
趋势2:重新考虑Word嵌入(Word Embeddings)
word嵌入是一种分布式的特征表述,向量的不同维度用来表征不同特征,不同维度上就代表着不同的语义。例如苹果和红旗都是红色的,苹果和香蕉都是水果。
今年题为“word嵌入”的论文数量从10个下降到了4个,尽管如此,词嵌入仍然是一项标准的技术。今年ACL的相关文章非常有趣,也许是因为词嵌入已经通过“炒作”阶段进入了“审查”阶段。这些论文探讨了词嵌入成功与失败的界限,它做什么,以及如何改善自己的弱点。
更好地理解单词嵌入
令人惊讶(但经常被夸大)的词嵌入的成功是他们的添加组合结构,令人难以置信的Skip-Gram-Zipf + Uniform = Vector Additivity旨在解释这一成功。作者证明了,用跳过式模型训练的分布词嵌入,在某些假设下具有可加性。最显着的是这些词是均匀分布的,虽然训练语料库不是均匀分布的,但是这个结果可能会解释词嵌入为什么具有的可加性。
其他论文研究了分词假设在词嵌入上的局限性。Li和Gauthier研究的问题:是否为现实世界准备了分配代理?,他们发现在词嵌入捕获某些概念特征,它们并不倾向于捕获感性特征。该论文尽可能的呼唤基础学习,正如通过建立机器人语言接地新研讨会所证明的那样。
词嵌入的另一个更明显的问题是它们不考虑多义词,而是分配每个表面形式一个向量。Upadhyay et al(论文),利用多语言并行数据来学习多义词单词嵌入,例如,将英文单词库翻译成法语单词banc和banque都是银行多义词的证据。在多模态词分布中,Athiwaratkun和Wilson没有用单向量表示单词,而是用它表示具有多种模式的高斯概率分布,从而捕捉到不确定性和多义词。
去分词
标准的词嵌入最难解决的限制是对形态信息的盲目性。因为在处理这样的问题时,总是将每个表面形式作为一个单独的匿名单元来处理。这可能会导致诸如无法识别两个词(例如走路者和步行者)具有相同的引理(步行)的问题。这是最近从词嵌入转向字表示的主要原因。
作为潜在的新标准CNN出现有人质疑它是依靠形态学解决的?今年的ACL至少有两篇论文表达了的否定态度。Vania和Lopez比较了几个子词组合表示的语言建模性能,发现它们中没有一个表现的能够与获得形态学注释的模型一样。即使提供原始输入模型进行多次的训练,这一结果仍然保持不错的性能。
这些结果表明,如果我们想要真正有形态意识的词汇表示,我们可能需要一个更明确的形态模型,而不仅仅是字符组成。在他们的变形论文中,Vulić通过使用非语言学家编写的一些非常简单的形态规则来微调词嵌入。同时,Cotterell和Schütze提出了一个更全面的形态学模型,共同学习一个可以将一个单词划分成其形态组分的系统(例如,questionably→ question+ able+ ly)。我认为这是一个非常有价值的方法,因为任何形态理解系统都必须能够构成和分解意义。虽然该模型在评估任务上表现良好,但我想了解的是如何轻松地将其转移到诸如句法解析或语言建模等外部任务中。
期待
词语是语言的基础,所以当我们选择如何建模语言时,我们的假设是重要的。尽管分布式语义对我们来说已经很好,但是这些语言不仅仅是它们出现的语境。在未来的几年中,我认为我们将会看到更多的基础,视觉和互动语言学习来补充分布式表示。
2017年ACL的四个NLP深度学习趋势 (二):可解释性和注意力(Interpretability and Attention)
本文由北邮@爱可可-爱生活老师推荐,阿里云云栖社区组织翻译。
文章原标题《machine-learning-vs-statistics》,
作者:abigail Chris Manning教授的博士生
个人网站:http://www.abigailsee.com
译者:袁虎 审阅:主题曲哥哥
文章为简译,更为详细的内容,请查看原文