Attention机制的实质其实就是一个寻址(addressing)的过程,如上图所示:给定一个和任务相关的查询Query向量 q,通过计算与Key的注意力分布并附加在Value上,从而计算Attention Value。
这个过程实际上是Attention机制缓解神经网络模型复杂度的体现:不需要将所有的N个输入信息都输入到神经网络进行计算,只需要从X中选择一些和任务相关的信息输入给神经网络。
注意力机制可以分为三步:一是信息输入;二是计算注意力分布α;三是根据注意力分布α 来计算输入信息的加权平均。
step1-信息输入 N个信息输入,X=[x1,x2……xN]
step2-注意力分布计算
令Key=Value=X,则可给出注意力分布
αi=softamx(s(keyi,q))=softamx(s(Xi,q))
将αi称为注意力分布(概率分布),s(Xi,q)为注意力打分机制,打分机制常见的有:
step3-信息加权平均
注意力分布αi可以解释为在上下文查询q时,第i个信息受关注的程度,采用一种“软性”的信息选择机制,对输入信息X进行编码为
这种编码方式为软性注意力机制(soft Attention),软性注意力机制有两种:普通模式(Key=Value=X)和键值对模式(Key!=Value)。
4、Attention机制的变种
与普通的Attention机制(上图左)相比,Attention机制常见的变种有:
变种1-硬性注意力
之前提到的注意力是软性注意力,其选择的信息是所有输入信息在注意力 分布下的期望。还有一种注意力是只关注到某一个位置上的信息,叫做硬性注意力(hard attention)。
硬性注意力有两种实现方式:
1、一种是选取最高概率的输入信息;
2、另一种硬性注意力可以通过在注意力分布式上随机采样的方式实现。
硬性注意力的缺点:硬性注意力的一个缺点是基于最大采样或随机采样的方式来选择信息。因此最终的损失函数与注意力分布之间的函数关系不可导,因此无法使用在反向传播算法进行训练。
为了使用反向传播算法,一般使用软性注意力来代替硬性注意力。硬性注意力需要通过强化学习来进行训练。——《神经网络与深度学习》
变种2-键值对注意力
即上图右边的键值对模式,此时Key!=Value,注意力函数变为
变种3-多头注意力
多头注意力(multi-head attention)是利用多个查询Q = [q1, · · · , qM],来平行地计算从输入信息中选取多个信息。每个注意力关注输入信息的不同部分,然后再进行拼接:
5、吊炸天的Attention机制:为什么自注意力模型(self-Attention model)在长距离序列中如此强大?
1、卷积或循环神经网络难道不能处理长距离序列吗?
当使用神经网络来处理一个变长的向量序列时,我们通常可以使用卷积网络或循环网络进行编码来得到一个相同长度的输出向量序列,如图所示
从上图可以看出,无论卷积还是循环神经网络其实都是对变长序列的一种“局部编码”:卷积神经网络显然是基于N-gram的局部编码;而对于循环神经网络,由于梯度消失等问题也只能建立短距离依赖。
2、要解决这种短距离依赖的“局部编码”问题,从而对输入序列建立长距离依赖关系,有哪些办法呢?
如果要建立输入序列之间的长距离依赖关系,可以使用以下两种方法:一 种方法是增加网络的层数,通过一个深层网络来获取远距离的信息交互,另一种方法是使用全连接网络。 ——《神经网络与深度学习》
由上图可以看出,全连接网络虽然是一种非常直接的建模远距离依赖的模型, 但是无法处理变长的输入序列。不同的输入长度,其连接权重的大小也是不同的。
这时我们就可以利用注意力机制来“动态”地生成不同连接的权重,这就是自注意力模型(self-attention model)。由于自注意力模型的权重是动态生成的,因此可以处理变长的信息序列。
总体来说,为什么自注意力模型(self-Attention model)如此强大:利用注意力机制来“动态”地生成不同连接的权重,从而处理变长的信息序列。
3、自注意力模型(self-Attention model)具体的计算流程是怎样的呢?
同样,给出信息输入:用X = [x1, · · · , xN ]表示N 个输入信息;通过线性变换得到为查询向量序列,键向量序列和值向量序列,
公式可以看出,self-Attention中的Q是对自身(self)输入的变换,而在传统的Attention中,Q来自于外部。
注意力计算公式为:
自注意力模型(self-Attention model)中,通常使用缩放点积来作为注意力打分函数,输出向量序列可以写为
Attention的应用领域
1、神经机器翻译
注意力机制最成功的应用是机器翻译。基于神经网络的机器翻译模型也叫做神经机器翻译(Neural Machine Translation,NMT)。一般的神经机器翻译模型采用“编码-解码”的方式进行序列到序列的转换。这种方式有两个问题:
一是编码向量的容量瓶颈问题,即源语言所有的信息都需要保存在编码向量中,才能进行有效地解码;
二是长距离依赖问题,即编码和解码过程中在长距离信息传递中的信息丢失问题。
通过引入注意力机制,我们将源语言中每个位置的信息都保存下来。在解码过程中生成每一个目标语言的单词时,我们都通过注意力机制,直接从源语言的信息中选择相关的信息作为辅助。这样的方式就可以有效地解决上面的两个问题。
一是无需让所有的源语言信息都通过编码向量进行传递,在解码的每一步都可以直接访问源语言的所有位置上的信息;
二是源语言的信息可以直接传递到解码过程中的每一步,缩短了信息传递的距离。
2、图像描述生成
图像描述生成是输入一幅图像,输出这幅图像对应的描述。图像描述生成也是采用“编码-解码”的方式进行。编码器为一个卷积网络,提取图像的高层特征,表示为一个编码向量;解码器为一个循环神经网络语言模型,初始输入为编码向量,生成图像的描述文本。
在图像描述生成的任务中,同样存在编码容量瓶颈以及长距离依赖这两个问题,因此也可以利用注意力机制来有效地选择信息。在生成描述的每一个单词时,循环神经网络的输入除了前一个词的信息,还有利用注意力机制来选择一些来自于图像的相关信息。