阿里巴巴达摩院：自然语言处理技术有哪些进展和趋势？

2022-01-21 05:01:30

2019 回顾：五大技术进展和四大应用与产品

回望过去，在自然语言处理技术的应用和研究领域发生了许多有意义的标志性事件，我们将从“技术进展”、“应用与产品”两大维度进行回顾。

2019 年，技术进展方面主要体现在预训练语言模型、跨语言 NLP/无监督机器翻译、知识图谱发展 + 对话技术融合、智能人机交互、平台厂商整合AI产品线。

1 预训练语言模型

随着 2018 年底 Google 提出预训练语言模型 BERT，在多项 NLP 任务上获得更优效果，预训练语言模型的研究与应用被学术界和工业界视为 NLP 领域的一项重大突破，将 NLP 问题的解决方式从以往的为每个任务单独设计复杂的模型逐渐演变成了预训练 + 微调的范式，让众多 NLP 应用能够享受到大语料预训练模型带来的红利，在通用的预训练模型的基础上加入简单的任务层，并结合自己场景的少量语料就可以获得一个不错的领域 NLP 模型。

至此开启了自然语言处理的新篇章。

在 2019 年，各个研究机构和公司在 BERT 的基础上进一步创新，纷纷提出了自己的预训练模型，如：Facebook 发布的 RoBERTa，CMU 发布的 XLNet，Stanford 发布的 ELECTRA，还有百度的 ERNIE 模型，阿里的 structBERT 模型，华为的 NEZHA，哈工大和科大讯飞也都提出了自己的模型，不断刷新 NLP 任务的最好成绩。

这新的工作总结起来，主要来自训练任务设计和训练算法两个方面。

训练任务设计

进行更加精细的语义粒度建模，包括引入更细粒度的建模对象和更加精细的刻画语义关联。

比如 “全词 Mask” 或者 “Knowledge Masking”，技术在 MLM 预训练任务中 Mask 整个词而不是单个 Token，进而提升了任务难度使得 BERT 学到更多语义信息,哈工大和科大讯飞联合发布的中文 BERT 模型以及 NEZHA 模型中得到了应用；再比如引入更多类型的句间关系，从而能够更加准确描述语义关联性，进而提升语义匹配等方面能力，这在阿里和蚂蚁团队的 BERT 模型中得到体现。

利用新的机器学习方法建模

包括 CMU 和 Google 联合发布的 XLNet 使用了 Autoencoder 和 Auto-regressive 两种方案；斯坦福大学提出的 ELECTRA 模型，引入对抗机制来进行更好的 MLM 学习。华盛顿大学和 Facebook 联合发布的 SpanBERT 模型还引入了 Span 预测任务。这些方案应用更学习方法来建模文字之间的联系，从而提升模型效果。

训练算法设计

针对模型的易用性的问题，减少模型参数，或者降低模型的复杂度，包括 Google 发布的 ALBERT 使用了词表 embedding 矩阵的分解与中间层的共享。

提高训练速度的优化

包括混合精度训练，用 FP16 来进行权重，激活函数和梯度等的表示；LAMB 优化器通过一个自适应式的方式为每个参数调整 learning rate，模型训练能够采用很大的 Batch Size; 这些方法极大地提高了训练速度。

阿里的 structBERT 模型通过引入更多模型和任务结构化信息，提升语言表示能力。在Gluebench mark 上多次名列前矛和保持领先位置。通过蒸馏和 CPU 加速，RT 提高了 10x，finetuned 的模型给多个业务场景带来了明显提升，上线了 AliNLP 平台。

预训练语言模型在大规模无监督文本上进行预训练，将得到的词和句子的表示迁移到广泛的下游任务上，包括文本匹配，文本分类，文本抽取，阅读理解，机器问答等不同的场景。如阿里语言模型在 MS MARCO 问答评测，TREC Deep Learning 评测上都取得了第一名的好成绩。

下游的任务可以在低资源的情况下快速获得一个不错的解决方案，极大的提升了 NLP 算法的应用落地能力。

2 跨语言 NLP/无监督机器翻译

作为预训练语言模型的扩展，Facebook 的研究人员提出了跨语言的语言模型预训练 “Cross-lingual Language Model Pretraining”，仅使用单语数据的无监督训练和使用平行语料的有监督训练的条件下，模型有效学习了跨语言文本表征，在多语言分类和无监督机器学习等任务上，都比之前的最优结果有显著的提升。

继 2018 年 Google 预训练语言模型 BERT 横扫主流 NLP 任务之后，2019 年 Facebook 发布了新型跨语言预训练语言模型 XLM，实现不同语言在统一嵌入空间的表征共享，并在无监督机器翻译任务上带来显著的质量提升。在探索大规模、多语言神经机器翻译方向上，Google、阿里巴巴等进行了有效探索，通过同时在数十乃至数百种语向的平行语料上训练一个模型，而不是对各个语向分别建模，实现语义映射关系共享，不仅压缩了模型数量，同时普遍提升了小语种翻译效果。

过去一年来，多语言 NLP 技术的研究成果主要集中在机器翻译（特别是无监督的机器翻译），跨语言词向量，多语言 NER，依存句法分析，词对齐和多语言词典生成等方向。

由于跨语言词向量的学习/映射是其中的关键步骤，目前的无监督/跨语言的 NLP 任务在相近的语言之间（如英语/法语，英语/西班牙语等）效果最好，在不同的语言家族间（如英语/越南语）效果还是有较大提升空间。

3 知识图谱发展+对话技术融合

随着数据量的积累和应用对数据质量和结构要求的提升，近几年知识图谱又成为一项热点技术开始被关注。

知识图谱技术领域在 2019 年的发展，包括领域知识图谱的构建和整合（金融、企业等）、图谱平台化标准能力的建设（schema 定义 + 构建 + 调用）、图谱应用算法建设（基于图谱数据的图模型 + 规则推理等）；并基于构建的图谱数据和能力，开始在更多的业务场景得到应用（搜索推荐内容理解和挖掘、金融风控和决策、对话理解和内容生成等）。

在知识图谱和对话结合的技术方向，对话技术在问答和任务式对话近几年已形成了一定的技术框架和业务覆盖，开始需要解决一些对知识理解 + 答案专业性要求更高的领域场景（理财助理等）。

对话技术结合知识图谱的领域知识完整度 + 结构化质量优势来进行覆盖，可以解决相应场景下语料标注（意图理解）和专家配置（对话流程 + 响应生成）上的不足，进一步提升对话覆盖和响应质量。融合知识图谱对话这个方向，在 2020 年会有更多的真实场景落地和覆盖。

4 智能人机交互

自然语言理解和深度问答匹配技术在学术和工业界持续发发展，并且已经在全域业务和场景有了大规模应用，基于预训练语言模型进一步带来性能的提升。

机器阅读理解成为低成本通用技术，围绕百科、政策法规、商品详情页、说明书等场景构建应用中台能力，接入效率有了很大提升。结合图-文的多模态 VQA 问答技术在行业中率先孵化，理解商品详情页长图进行问答成为一项新的竞争力。
对话（Dialog）技术能力进一步发展，但是在端到端的基于数据驱动的对话状态跟踪和对话策略还是只能在限定范围内进行探索，工业场景基于对话平台构建的任务型机器人成为了主流的实现方案。
多语言技术实现新语言的快速拓展，基于 Cross-Lingual 构建多语言语言模型，在远距离语言对在英 -> 中、英 -> 泰远距离语言对上超越 Google，拓展一个新语言从去年的 2 个月缩短到 2 周。
对话生成技术开始取得突破，基于结构化知识的引入提升生成的可控性，卖点的生成带来导购转化率的提升。

5 平台厂商整合AI产品线

随着 AI 技术发展和 AI 应用的需求，AI 技术框架的成熟（Tensorflow、PyTorch等），AI 技术能力逐渐被标准化为一系列 AI 平台类产品，面向企业和开发者，提供更低门槛和更高效率的 AI 应用支持。

对话类平台，Google 从 2016 年开始发布 Assistant 对话助手，这几年陆续发布了 Google Home（现在整合到 Nest 智能家居品牌），Duplex 语音电话，以及收购了 API.AI 对话开发平台；今年 Google 已基本整合这些对话产品线，基本布局了对话现有的平台 + 终端，现成一个整体的对话产品线。

AI 类平台方面，Amazon 自 2017 年发布 SageMaker 机器学习平台产品，今年进一步基于 SageMaker 整合 AI 开发过程，同时打通下游技术框架和上游 AI 应用，整合 AI 产品线。类似阿里的机器学习平台 PAI，定位成面向企业和开发者的一站式机器学习平台。

2019 年，应用与产品方面主要体现在机器翻译、对话系统、多轮对话智能服务、智能语音应用持续发展。

6 机器翻译

机器翻译的产品发展延续了之前的趋势，在通用领域（新闻），特定领域（电商，医疗等）扩展了更多的语言方向，支持了更丰富的业务场景，并持续带来商业价值。阿里巴巴在翻译干预和智能泛化方向进行了卓有成效的探索，把业务知识更好地融合到神经网络翻译框架中，大大提升了垂直场景下关键信息的翻译准确率。

高价值和高敏感内容的翻译目前仍离不开人工，因此在计算机辅助翻译（CAT）引入智能算法实现人机协同翻译，以及机器翻译后编辑（MTPE）等新型生产模式，也受到越来越多的关注。阿里巴巴、腾讯在自动后编辑（APE）、交互式翻译（IMT）都开始有产品推出，并在实际业务中落地。

除了文本翻译之外，更多的多模态翻译应用场景出现，如语音翻译在会议同传，双语字幕，翻译机硬件上的尝试（阿里二十周年年会上马老师和逍遥子演讲也以实时双语字幕的形式展示）。

结合 OCR，机器翻译和合图技术的图片翻译在支付宝扫一扫，微信，搜狗翻译机上得到应用。随着卖家直播的兴起，直播视频翻译的场景和需求也会越来越多。但是受限于直播场景中复杂的领域，专业的术语，快速的语速和有时嘈杂的背景环境，直播翻译对于语音识别和机器翻译的挑战也是非常巨大。

7 对话系统

对话系统的语言覆盖进一步提升，基于多语言迁移能力快速拓展了法语、阿拉伯语、*话的对话系统，目前已支持 11 个语种，及马来语-英语和泰语-英语的混合语言理解，为 Lazada 和 AE 带来解决率的大幅提升。
对话系统支持了更大规模的商家和企业，支撑了超过 50+ 的集团经济体客户，店小蜜拓展了通用包、行业包、店铺包的知识定位能力，累计承载百万级活跃商家，日均千万级对话轮次。钉钉小蜜基于企业智能助理承载了 40W 日均活跃企业。
对话系统的交互形式进一步丰富，直播小蜜实现了从商品相关问题的被动回答，到主动和用户展开开放式对话的转变，带来 cdau 破百万。
VQA 等多模态理解能力落地店小蜜及经济体小蜜，提升用户交互体验的同时大幅降低商家配置成本。
热线小蜜的语音交互能力作为典型案例获 2019MIT Technology Reviewer 十大突破技术提名，并沉淀了面向多领域的外呼场景，并在多个生态输出。

8 多轮对话智能服务

多轮交互在智能服务场景（客服机器人）在解决用户模糊问题，提高用户使用体验方面起到的重要的作用。模糊问题指用户问题描述不完整，如 “怎么开通” ，这句话没有说明是哪个业务，这类问题占客服机器人总提问量的 30%。

蚂蚁智能服务团队设计了基于标签的多轮交互方案，首先离线挖掘标签，并审核，标签包括业务标签（花呗，备用金...）和诉求标签（怎么开通，如何还款...），通过向用户反问标签列表的形式澄清用户问题。

已有的问题澄清方法主要通过直接推荐完整澄清问题的方案，但定义什么是好的澄清问题仍然不明确，蚂蚁团队设计了一个基于强化学习推荐标签列表的方案做问题澄清，整个标签推荐是一个序列决策的过程，在用户点击了标签之后，我们会把点击的标签和原始的用户问题一起作为澄清后的问题。

整个优化的目标是，目标是最大化整个标签列表对潜在澄清问题的覆盖率，同时保持不同标签对潜在澄清问题集合的有效划分，因此，在强化学习过程中，相应设计了基于信息增益的奖励（Reward）。

基于强化学习方法的多轮交互上线后，蚂蚁客服机器人场景共解决了 33% 的模糊问题，机器人综合场景转人工率绝对下降 1.2%。

9 人机对话构建新的交互入口

场景驱动的个性化多轮对话技术，助推人机对话场景扩充，同时语音语义一体化的上下文语义理解技术，持续提升多轮对话达成率。

天猫精灵在过去一年中，将人机对话能力扩充到二哈电话助手，语音购物，新人使用引导等复杂的交互场景，更是在双十一期间，创造了语音购物 100 万订单的记录。

天猫精灵在去年的 315 推出了防骚扰电话助手 “二哈”，开启了全新的人机对话交互场景：作为用户的替身完成对话。“二哈” 的对话场景是在垂直领域内的开放式多轮对话，目的是通过对话来识别来电意图，并代替用户来获取必要信息。在 “二哈” 中我们提出了基于多轮对话上下文的机器阅读理解技术，用以理解来电意图和关键信息；基于对于来电内容的理解，我们基于 Transformer 构建了对话策略模型，用以选择策略和生成对话。针对 “二哈” 的对话场景，我们提出使用图灵测试通过率来衡量对话的质量，亦即当来电在整个对话中都没有意识到是机器在与其通话时，可以认为 “二哈” 通过了图灵测试。“二哈” 目前的图灵测试通过率达到了 87%，有效的帮助了用户应对陌生来电，节省用户时间。

通过人机对话的方式去完成复杂的任务，比如点咖啡、购物等，往往需要机器和用户进行多次对话交互，同时在不同的任务场景下，对话机器人需要掌握各自领域的知识，才能和用户对答如流。比如在语音购物场景，天猫精灵具备跨行业的智能导购员能力，吸收各行业导购员的销售经验，在用户进行语音购物的时候，以最终的成交转化为目标，像商场的销售员一样主动进行多轮对话形式的购物引导，深入挖掘用户购物需求并结合用户画像进行精准推荐。且对不同的用户，天猫精灵可以采用最适合 TA 的对话方式，做到个性化多轮对话。

多轮对话的达成，是建立在一系列的单轮交互都达成的基础上的，而如果整体任务的达成率是简单的单轮达成率的乘积关系的话，多轮对话的达成率将很难提升。而打破简单乘积关系的关键在于，每一轮对话理解的时候，需要充分利用上下文信息。

在天猫精灵上，我们进行了上下文语音语义理解的探索。首先在语音解码的环节，我们将多轮对话中，上文提到的实体信息构建成 memory，通过 attention 机制让解码器网络感知到这些对话场景信息，显著提升了多轮对话场景的语音识别精度，然后在语义理解环节，我们独创了具备跨轮 attention 能力的端到端上下文继承模型，实现更高效的对话场景恢复的能力。从而让线上多轮对话的错误率下降了 58.5%，有效保障了复杂多轮对话场景的扩充。

10 智能语音应用持续发展

智能音箱，近几年基本上国内外大玩家都已陆续进入市场（Amazon Alexa、Google Home/Nest、天猫精灵、小米小爱、百度小度），2019 年进入竞争格局；2019 年智能音箱出货量仍然在增加，但增速下降。

智能音箱仍然以音乐播放等软件类服务为主，但进一步应用创新仍依赖智能家居和 IoT 设备的进一步普及。

智能语音电话，2018 年 Google I/O 大会展示了 Duplex 的语音电话助手 demo。2019 年智能语音电话开始更多地应用到真实业务领域，包括电销、金融、政务等领域的应用都在增长，以提升用户服务覆盖+降低人工成本。

蚂蚁智能语音电话 2019 年也在安全（核身）、金融（保险回访、微贷催收）、支付（客户激活）等更多金融场景应用和落地。

智能语音类应用，所面向的用户场景强依赖对话语音交互，推动了 NLP 技术和语音技术的发展；随着技术和产品的发展成熟，以及用户接受度的提高，2020 年的应用规模和领域会进一步扩大。

2020 趋势：NLP 进一步推动人工智能从感知智能向认知智能的演进

站在新的一个十年，智能人机交互、多模态融合、结合领域需求的 NLP 解决方案建设、知识图谱结合落地场景等将会有突破性变化。

1 智能人机交互

语言模型将在智能人机交互中扮演更重要的角色，形成更丰富的形式，混合 100 种语言的多语言语言模型，以及融合图像-文本和语音-文本多模态语言模型将崭露头角，在不同语言、不同模态、不同领域的小样本场景下带来全面的能力提升。

多语言交互从不同语言理解上升到不同文化的理解，通过跨文化理解技术深入当地文化实现地道的对话交互。
以在线文本为核心的交互方式将全面转变为结合视频、图像、语音、文本的多模态人机交互。
基于数据驱动的对话状态跟踪和对话策略将逐渐替代规则式策略，使得多轮对话技术进一步演进，带来更自然的对话体验。
知识图谱将广泛融入问答和对话的各类深度学习模型，通过先验知识及推理能力的融入，使得模型更为白盒化，在对话的理解和生成过程中带来更好的可控性和可解释性。
对话系统在小样本情况下的冷启动能力提升带来应用构建成本的大幅下降，对话系统从主要为大体量的客户服务，拓展为更普惠的、广泛的支持海量规模、各行业的小企业及小商家，并进一步走向海外，使得更多不同国家、不同语言和不同文化的用户进入智能服务时代。

2 多模态融合

随着 5G 和边缘计算的逐步成熟和普及，将带来视频、图像、文本、语音等模态的全面融合，语言模型朝着多模态融合的方向发展，在在线场景下实现混合模态的理解，将能融合理解用户经过多轮对话发送的图片、语音和文字内容，并以多模态的形式进行回复；
对话系统产品中将全面实现多模态交互能力，直播和 IOT 大屏交互将全面应用视频+图像+文本多模态技术带来丰富的交互体验，流畅的全双工语音对话机器人将被普遍应用，实现边听边想、边听边猜、主动抢话等类人交互能力。
在语音交互场景下通过声学信号+文字信号，识别用户交流中的情绪变化，在 IOT 互动场景下实现基于摄像头、麦克风的拟态生命；

3 结合领域需求的NLP解决方案建设

过去 NLP 算法多以平台/API 的方式输出通用模型，相应地也在各种云上建立了通用 NLP 算法平台（Amazon Comprehend，微软 Azure Text Analytics，谷歌云 Natural Language，阿里 NLP，百度 NLP 等）。

但是在业务场景中，每种场景领域都有自己的特定的需求，产生了相应的场景数据。通用模型结合场景数据进行领域自适应训练，从而输出的领域定制模型会更好地满足业务需求。

4 知识图谱结合落地场景

面向新的一个十年，通过 NLP 和知识图谱两大核心技术来构建行业知识图谱，机器能够通过知识图谱挖掘隐性关系，洞察“肉眼”无法发现的关系和逻辑，用于最终的业务决策，实现更深层次的业务场景落地。从发展方向来说，可以分为下面几个方面：

优化知识抽取能力：结合已有的知识和 NLP 技术能力进一步提高非结构化数据理解能力，应用预训练语言模型、信息抽取、实体链接等相关的技术，对非结构化及半结构化数据进行抽取和转换，形成知识图谱形式的知识，以及和知识图谱里面的结构化的知识进行链接。
与行业知识沉淀：在行业知识图谱解决方案实际的落地过程中，面临重重挑战，行业知识图谱的构建，本身就需要数据积累和基于业务场景的数据理解，而构建和积累行业知识图谱，将是认知智能时代的核心竞争力。在行业数据构建时，对知识的准确性要求非常高，实体通常需要较多且具有行业意义。需要针对多源异构数据融合，基于可动态变化的“概念—实体—属性—关系”数据模型，对各种类型的数据进行抽象建模。
智能可信的知识推理：基于过去已知知识进行知识推理，理解行业事件知识驱动知识推理传导，利用行业规则逻辑结合深度模型进行推理，使其能够在业务的推理和辅助决策上带来更加智能化的体验。

以上是我们对于 NLP 技术过去一年发展的回顾和今年趋势的思考。一家之言难免疏漏或者以偏概全。抛砖引玉，希望能够得到更多同学们的思考和指正。比尔·盖茨曾说过，“语言理解是人工智能皇冠上的明珠”。要达到这样的高度，还需要技术和应用上的突破发展期待在下一个十年的开始，我们一起让 NLP 技术发展更加迅速，应用场景更加丰富，推动认知智能的发展更进一步。

码农公寓