自然语言处理技术及行业应用案例

本文简单介绍了阿里云NLP技术平台中几个关键的点,如阿里目前正在做国际化,目前包含的语种从东南亚语种,西班牙语种,正扩展到欧洲语种。除此之外阿里NLP还在做行业级应用,包括在城市管理,医疗领域中已经推出了很多应用产品。

演讲嘉宾简介:
琳嫣,阿里云高级算法专家。博士毕业于德国萨尔大学,研究方向为词汇语义的歧义性,博士成果曾发表在Computational Linguistics期刊,以及ACL,EMNLP,NAACL,EACL,COLING等学术会议上。毕业后先后就职于微软奥斯陆,法国国立研究所LIMSI-CNRS,以及百度北京。入职阿里以来,主要做自然语言处理基础工作,包括分词、词性、实体、信息抽取以及知识库构建。同时也负责多语言处理基础的国际化工作。

以下内容根据演讲嘉宾视频分享以及PPT整理而成。

本次的分享主要围绕以下三个方面:

一、我们在干什么?
二、阿里云NLP技术平台
三、产品探索


一、我们在干什么?
人类语言非常丰富,NLP想做的就是在比较丰富的人类语言之中和机器语言做一个桥梁,让处理的信息成为机器能够理解的表示形式。这里介绍两个比较主流的流派,一个我们称作为统计表示,一个基于统计信息的表示方式。更传统一点的称为符号表示,更通俗讲就是早年做数据库时候有一些关键数据库,图谱信息,做的时候写一些推理,规则解释语言。统计表示就更black box一点,它有输入输出,那么中间具体是什么样的过程就比较难以控制。当然符号表示数据量比较大的时候会有一些问题,统计表示在大数据领域比较powerful一些。NLP应用有问答系统,对话系统,知识表示,推理,机器翻译。问答系统是目前比较火的技术,很多产品是基于这个技术研发的。在阿里做NLP更多是从业务场景出发解决问题,也想利用这个技术驱动场景带来实际价值。

二、阿里云NLP技术平台
目前比较复杂的生态有新零售,金融,物流还有娱乐。我们优先想的是用完整的解决方案去赋能阿里商业,同时我们也会做一些相对前沿的,和学术界,Research institute做一些合作,在技术本身的前沿发展做一些探索。
下图是阿里整个NLP平台的状态,我们想把NLP本身的基础技术集合集成起来,以后有一些场景的话不用重复不断的做类似的场景,即可以沉淀技术,也可以用通用的方式给上层的应用提供支持和服务。可以理解为在盖楼的时候,我们造了很多砖头,在用的时候从我们这边取几块垒一垒可能就能得到想要的效果。
自然语言处理技术及行业应用案例
目前这个平台大的几个点,一个是在做国际化。大家可能听过阿里今年年会的时候有一些东南亚电商的场景,早年有俄罗斯,西班牙都会有一些阿里电商平台的推出,另外还有金融支付,物流。我们做的除了东南亚,俄罗斯的语种,还有一些欧洲语系的工作。另外我们会做行业级的应用,一个是城市管理,一个是医疗。阿里的NLP平台从技术层面有两个比较特殊的点,我们经常想去用用户的行为数据驱动整个平台技术,在学术界研究一个模型,调节参数,设计逻辑结构,但是在工业实际场景会遇到很多现实的数据问题。比如数据量很大,数据类型不同,可能医疗数据和金融都混在一起,或者说数据不干净。在工业场景下需要解决很多这样的问题,必须使用到用户行为数据。第二个场景会有多任务的学习。

NLP技术的结构
下图是整个NLP技术的总体状况,下层有很多的数据,会有专门的部门做数据。现在在新的AI技术的发展下,需要巨大的数据支撑不同的场景。比如说结构化数据,半结构化数据,人工标注的数据,特定行业的数据。在数据基础上有一些NLP基础算法,其中包含词法,句法,语义,篇章等基本的语义模块。比如说,中文的汉子都连着写的,肯定比英文或者印度,拉丁语系的语言更难分词,那首先要找到句子里面哪个短语是一组词。那对机器来说,很多问题,很多歧义会造成应用方面的瓶颈。其它的如DL-NLP是比较新的模块,因为传统的是基于语法,或者早年学语法的时候单复数统一,过去式加ed这种典型的语法系统,在NLP中会基于规则做语法系统。大数据出来之后有更数据驱动的方式就是这里提到的DL-NLP,把NLP输入问题数据进行量化,依据深度学习的功能得到数据的拟合,得到效果。当然大家可能会认为数据驱动的下一阶段是认知科学的驱动,深度学习的模型更多的去拟合无形的数据。人类的行为肯定不是数据驱动的,比如意会人与人之间的意思。
自然语言处理技术及行业应用案例
技术平台上层会有一些应用,比如问答系统,对话系统,还有语言的生成,知识表示推理等。上层有一些业务的支持,比如广告,翻译,金融,物流,商品搜索推荐等。

用户搜索行为数据
在做工业,做技术的时候跟你当前研究技术本身会从不同的另外的角度给你新的输入,有趣的idea。我们在做分词的时候,做这方面Research的话会有一些标注数据,然后对比别的,比依赖的资源更多还是更少。但在互联网场景下,用户搜索行为数据根本就没有成本。假设有个query在淘宝里搜,它可能给你推了一句17年春季新款,然后标题就出来,那三生三十桃花就是一个语义单元。我们得到了很多这种不需要任何标注成本的有用的信息。
自然语言处理技术及行业应用案例

三、产品探索
地址识别
这个场景非常非常的现实,尤其在城市管理。假设110报案,首先要知道你的事发地在哪儿,找到对应的门牌号,街道,这样的话可以找到离你最近的派出所出警。所以接警系统首先要对地址进行一个抽取,其次在一段对话里面找到地址片段,把边界正确的抽出来,然后做结构化的解析,告诉它在哪个城市哪个街道哪个地方发生了什么事,如果有同义的表达还需要做正规化。简单来说基本流程就是对地址做边界的识别,做标准化归一,做层次解析,告诉它发生什么事,路况,是否是商业住宅的分类,邮政编码等信息。
一个特别现实的场景就是很多公司用的传统的ERP系统,ERP系统其实是关系数据库,那么现在有更多的关系比传统的关系更复杂,比如图状结构,做一些复杂的关联。在把原始的文本结构化之后以合理的方式进行存储,之后做一些简单推理。比如A和B在数据库里面有可能没有关系,但是经过简单的推理之后可以知道一些映射关系的存在或者它们潜在的关系。

医疗数据库
下面的一个例子是一个医疗数据库,它有个很有趣的落地场景。在中国如果入院的话,主治医生是每天都要检查病历,每天要把信息完整的填一遍,比如血压血糖,还有别的指标有没有降低或提升等。医生对这些事情是有很多很多concern,这会造成写病历的时候出现很多错误,如医生疲劳,没有注意到。所以现在很多医院会雇佣一些退休的护士和其他医护人员手动检查病历,如果有问题打回来重新填写。所以医院做智能化的Motivation是非常高的,在病历进来的时候做基本的判断,看病历和事实是否符合,或者跟过往病历有没有矛盾的地方,如果有及时提示当场修改。假如说抗生素过敏这件事情不可改变,那住了十天之后病历上写的无抗生素过敏那肯定是有问题的记录。
自然语言处理技术及行业应用案例
在做病历的时候比较关键的点。病历查重,判断病历是否存在抄袭,还有对病历质量做评估,看关键指数填写的是否合理。
自然语言处理技术及行业应用案例

文本纠错解决方案
另外我们还做了文本纠错的方案。它是一个需求很大的事情,因为非常底层,基础。比如写英文的时候word里面都会有一些检查,语法,拼写等。中文在这方面比较少,前段时间看外国人写中文作文的例子,我们做了作文的自动识别错字,多字,少字,次序错误等,然后进行纠正。
自然语言处理技术及行业应用案例

NLP国际化业务
阿里用很多的语料数据做基本模块,上层搭一些应用,这些模块会被使用到上层应用中。拿搜索模块作为例子,
自然语言处理技术及行业应用案例
从建索引,到上层做Retrieving,或者Matching,Ranking,包括上层展示都有很多的多次处理。中间都会用到NLP基础的工具,Segmentation,TermWeight等。
自然语言处理技术及行业应用案例
在很多商品发布的标题和最后展示的标题需不需要做refinement,或者对展示的标题做审核。
自然语言处理技术及行业应用案例
在国际化业务场景中现在已经有alibaba.com,Lazada,淘宝,天猫,天猫国际。另外在语种方面主要是东南亚语,西班牙语,后续会有欧洲语种进来进行语种扩展。
自然语言处理技术及行业应用案例

本文由云栖志愿小组董黎明整理

上一篇:[j2ee]Eclipse搭建SSH开发框架


下一篇:程序员必知 —— 编程语言创始人