以微软小冰为代表的聊天机器人已经渗透到我们的日常生活中,虽然小冰会卖萌懂幽默,但距离真正的共情、理解人类的情绪还是有一定的距离。清华大学计算机系朱小燕、黄民烈老师团队今年的一项研究工作希望让聊天机器人具备这样的能力。
在这个名为 ECM(Emotional Chatting Machine:情绪化聊天机器人)、基于深度学习的情感对话模型中,团队首次将情感因素引入了基于深度学习的生成模型中。
相关论文可查看《Emotional Chatting Machine: Emotional Conversation Generation with Internal and External Memory》,作者周昊、黄民烈、张天扬、朱小燕、刘兵。
9 月份,黄民烈博士也带领清华的两位学生,联合搜狗搜索团队一举获得了全球唯一开放域对话评测比赛 NTCIR-STC2 的冠军。雷锋网 AI 科技评论与黄民烈博士取得联系,与他交流了近期的一些研究工作,并探讨了聊天机器人的情绪机制设计。
黄民烈,清华大学计算机系副教授。研究兴趣主要集中在深度学习、机器学习方法与应用,自然语言处理如自动问答、人机对话系统、情感分析等。已超过 40 篇 CCF A/B 类论文发表在 ACL、IJCAI、AAAI、EMNLP、KDD 等国际主流会议及 ACM TOIS、Bioinformatics 等期刊上,SCI 他引超过 300 次。曾担任多个国际会议的领域主席或高级程序委员,如 IJCAI 2017高级程序委员, ACL 2016、EMNLP 2014/2011、IJCNLP 2017 等国际会议领域主席,担任多个国际*期刊的审稿人。
目前对话系统有两种主要模式,一种基于信息检索,即在数据库或语料库中找寻相近内容的答复作为返回答复,现在有很多工作及实际应用也采用的是这种方法。而随着深度学习的发展,另一种方法——基于深度学习的生成式对话系统也受到了越来越多的关注。从去年开始,NTCIR-STC2 在基于检索的任务上又新增了一项基于生成的任务评测,其重要程度可见一斑。
黄民烈博士告诉雷锋网 AI 科技评论,有不少生成式对话系统的工作都将关注点集中于提升生成语句的语言质量,但往往忽略了对人类情感的理解。因此,团队着手研究如何让计算机通过文字方式表达情绪,也是希望能在人机对话系统中加入感知情绪的成分,能从语言和情感两个维度上生成恰当的回复。
根据论文的介绍,ECM 在传统的 Sequence to Sequence 模型的基础上,采用静态的情感向量嵌入表示,动态的情感状态记忆网络和情感词外部记忆的机制,让 ECM 得以根据用户的输入,并基于指定的情感分类(包括快乐、伤感、愤怒、厌烦、好感等五种情绪)输出相应的回复。
在这项研究中,ECM 首次将情感因素与深度学习方法相融合。尽管自然语言处理领域本身早在深度学习快速发展前就已经能顺利做出商业化的产品,但在 ACL 2017 上,雷锋网 AI 科技评论也非常明显地感受到深度学习的渗透。不可否认的是,深度学习对自然语言处理的影响力不可小觑。在黄民烈老师的理解中,语言本身的复杂性有很多方面,比如情绪、风格、结构等等,而且语言经过高度抽象后往往只字之差意义去相去甚远,这种符号上表达的含义很难用模型进行表述和定义。而深度学习更擅长的是做概率性的一些推理。「对于语言来说,深度学习目前还是比较难以解决包括符号、知识及推理层面的问题的。」
ECM 的主要数据来源是新浪微博。但微博作为一个非常活跃的社交媒体,也有非常多涉及网络用语、反语、双关的帖子或评论,目前有不少学者在做相关的研究,包括网络新词、反语检测、双关检测等,黄民烈博士自己也有相关的研究工作。比如在自然语言处理领域*会议 ACL 2014 上,黄民烈博士有一篇第一作者的收录论文《情感分析中的新词发现》(New Word Finding for Sentiment Analysis),基于微博数据提出了一种数据驱动、不依赖知识、非监督的新词发现算法。那么在 ECM 中,是否也会对新词进行发现并做情感分析,辅助进行生成式的回复呢?
对此,黄民烈博士告诉雷锋网 AI 科技评论,在 ECM 的研究中,这类数据并没有很多,也不影响研究者们基于数据获取生成内容。他认为,这类工作在判断舆情或是大众观点上会更受关注些,但其中最重要的是对背景知识的了解。「比如你讽刺一个什么事情,其实人类是知道关于这个内容或这个事件的背景信息的,因此你很容易理解这是一个反讽,但现在计算机系统还不太能做到这一点。如果模型不能很好地利用这种背景知识和信息的话,确实会得到一个相反的结论。」
「ECM 的研究只是非常初步的一个尝试,聊天机器人的回复目前是建立在给定情感分类的基础上做出的,还没有涉及到如何评判用户情绪的研究。」黄民烈博士表示,后续可以通过设计共情机制,或是通过上下文、情境等信息判断合适的回复,不过这非常复杂和具有挑战性。
机器要拥有「情绪」,能够更加智能,在黄民烈博士看来需要有两个方面的内容。首先是语义理解,另一个则是身份设定。语义理解不难懂,现在有很多公司及研究机构都在做类似的工作。但身份设定,则是要在聊天进行的过程中嵌入机器人的身份和属性。
「比如现在我们可以和小冰聊天,但很快你会意识到它不是一个『人』,除了语义理解的问题外,更多的是因为它缺少一个固定的人格和属性。比如当你问小冰,它的性别是什么时,这个回答是前后不一致的。」黄民烈博士表示,如何让机器人具有特定的说话风格,实际上也是一个非常重要的问题,在未来,当我们设定机器人是一个三岁的小男孩,会弹钢琴时,那么结合这样的属性再去和它对话,它应该生成跟它自己身份、个性相符合的答复。在这方面,黄民烈博士也进行了初步探索,详见论文《Assigning personality/identity to a chatting machine for coherent conversation generation》。
黄民烈博士表示,一个符合情境的交谈或对话需要符合多个因素。首先是交谈的话题;其次,交谈的对象是什么,是在和谁说话;再者,双方的情绪甚至心理活动状态是怎样的。除此之外,还需要考虑用户的背景和对话中扮演的角色,甚至多方面综合的感知信息如语音、语调、姿态和表情等。「目前我们所做的研究还只是从文字上来判断。有时候我们在设计模型时并没有办法完全地考虑到这些变量,因此只能在研究的基础上做大幅的简化。」
除了身份设定的研究外,黄民烈博士也正在进行更多的关于「解决任务导向对话系统、聊天机器人、自动问答中最具挑战性」的研究工作。现在的人机对话要实现像人一样的自主交谈依然具有很大难度,而其中涉及的最根本的便是理解的问题。「平时做一个相对容易的分类问题,(准确率)可能做到百分之七八十,而且这些结果也能够用在实际的系统里面。但人机对话实际上需要的是深层次的理解,所以现在的系统还存在很多逻辑上的问题。」黄民烈博士及其团队虽然在近年也做出了不少尝试,也取得了一定的进步,但他认为,实际上在开放领域及开放话题上的聊天依然有很多问题亟待解决,比如如何利用客观世界的知识,或是背景信息,并结合记忆、联想和推理,才能实现符合情境的交谈与对话。
在黄民烈博士看来,在特定任务场景的生成式对话才更具有商业应用的前景。目前,黄民烈博士及团队在商业化应用上也做了不少尝试,比如和一家机器人公司合作研发了一款点餐机器人。从 Demo 上看,这款机器人能够清楚地理解各种上下文的指代,如「这道菜」、「刚刚那个鱼」等语句,且不会被临时的其它提问所打断。
「家用聊天机器人的语境要宽泛得多,因为我们并不知道对方会和你聊些什么,因此目前开放式的聊天系统距离真正的实用还有一定距离。」尽管如此,黄民烈博士表示,语音交互作为一个新的入口,作为人机交流的一种范式,开放式聊天对于情感陪护而言依然是非常重要的互动环节。「从产品的角度来讲,一方面它确实可以提供更好的用户体验,另一方面如果积累大量的实际对话数据,也可以进一步促进技术的发展。」
有着深厚研究成果的黄民烈博士,实际上在自然语言处理的研究经历了跨专业、跨学科的历程,「半路出家」的他原本就读的是清华大学工程物理专业,关于数学、计算机的课程给他转向自然语言处理研究打下了扎实的基础,并凭借出色的研究成果获得了 2006 年清华大学优秀博士论文,被授予「清华大学优秀博士毕业生」,随即留校任教。
回顾就学经历,黄民烈博士告诉雷锋网 AI 科技评论,他非常看重学生的基础课程和知识是否扎实,也强调了打好基础知识的重要性。他认为,「语言理解的难点在于,首先它经过了高度的抽象,其次需要综合利用的信息非常多,要理解一句话需要充足的背景知识才能明白真正的含义。」而于他而言,自然语言处理最大的魅力就在于所具备的挑战性,作为人类日常使用的交流方式,语言理解的很多问题依然非常困难。而目前,黄民烈博士及其团队也正试图从理解的角度出发,进行更多复杂问题回答、人机对话、情感理解方面的相关研究。