CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation

链接

http://arxiv.org/abs/2005.00329

作者

Lei Shen
计算所冯洋组

主题

emotion chatbot + Curriculum Dual Learning

摘要

ECM的发展:

  • 将情感注入对话系统可以使对话主体更像人类,并有益于人与机器之间的交互(Prendinger和Ishizuka,2005; Prendinger等,2005; Partala和Surakka,2004)
  • emotional chatting machine (ECM) (Zhou et al., 2018a) 后续工作:its successive methods (Colomboet al., 2019; Song et al., 2019)
  • 问题在于:将给定的情感类别表示为矢量,并将其添加到解码步骤中以影响response生成的过程,这会加剧“safe response”问题:也就是倾向于产生一些通用但无意义的响应。由于emotion factor的约束,proper response的scale会缩小,并且该模型更有可能将任何查询映射到该情感类别中的频繁发生的回复。
  • 直觉上,对于一对好的查询和响应,它们应该保持紧密的关系并具有相同的质量。这样,查询到响应的映射和响应到查询的映射都将更加容易和自然。 相反,无论是在内容级别还是在情感级别,​​安全响应都很难通过反向生成到达原始查询。产生各种情绪的困难有所不同,尤其是在嘈杂且质量参差不齐的数据集中。因此,我们可以基于后向过程的反馈评估响应,以提高一致性(Zhang等人,2018; Cui等人,2019; Luo等人,2019b),并尝试从简单到困难的数据中学习产生适当且充满情感的回应。
  • 在本文中,我们提出了一种用于情绪可控的反应生成的新框架,称为课程双重学习(CDL)。 我们将以情感为基础的响应和查询生成的学习作为一项双重任务,并使用对偶性来建模它们之间的相互关系。 向前和向后模型通过强化学习(RL)进行交替训练。
  • 这里设计的奖励旨在鼓励情感表达和内容一致性。 具体来说,情感表达可以是显式的(体现在一些明显的情感词中),也可以是隐式的(反映在整个句子的组织中)。 例如,“我很高兴再次见到她”用“快乐”一词是明确的,而“好像我已经吃了蜂蜜”则是隐含的,但是当我们把句子整体考虑时,就会感到幸福。
  • 基于这些特征,我们将句子的情感分类的准确性和情感词的比例分别用作显性和隐性情感的反馈。 为了保持内容的一致性,我们将重构概率作为一致性的度量(第3.1节)
  • 此外,为了更好地利用嘈杂和质量参差不齐的数据集中的多种情感样本,我们将课程学习(第3.2节)纳入了双重学习框架(第3.3节)。

背景

  • 任务定义:CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation

CDL: Curriculum Dual Learning for Emotion-Controllable Response Generation

CDL for Emotion-Controllable Response Generation

  • 由于我们的CDL方法是双重学习(DL)和课程学习(CL)的结合,因此我们首先介绍DL的主要组成部分,包括状态,行为,政策和奖励,然后介绍了课程学习的合理性。 最后,我们描述了CDL的训练算法。

DL architecture

  • 前向ECM+后向ECM+分类器CLS
  • 前向ECM \(M_f\): 输入: 查询\(q\) + 情感类别\(e_r\) ==> 响应\(r^{'}\) ==> 输入CLS和后向ECM \(M_b\) ==> 分别获得reward: \(R_e\) + \(R_c\)
  • 后向ECM \(M_b\): 输入: 响应\(r\) + 情感类别\(e_q\) ==> 查询\(q^{'}\) ==> 输入CLS和前向ECM \(M_f\) ==> 分别获得reward: \(R_e\) + \(R_c\)
  • 可以通过强化学习(RL)交替训练这两个模型。
    • an action is the dialogue response to generate
    • A state is denoted by the query, which is further transformed to a vector representation by the encoder.
    • A policy takes the form of a GRU encoder-decoder and is defined by its parameters.
    • Following the work of Li et al. (2016c); Zhang et al. (2018), we use a stochastic representation of the policy, i.e., a probability distribution
      over actions given states.
  • 为了鼓励内容的一致性和情感表达,我们引入了两种奖励并将其用于训练\(M_b\)和\(M_f\),
上一篇:有关Sql中时间范围的问题


下一篇:08 单行函数与组函数