在这一部分我们就要弄明白“encoder和decoder之间是怎么传递讯息的”了,如果你仔细观察下图红方块那一块的话(也就是我们在 Why transformer(二)中遮起来的那一块),那我们就把这一块叫做Cross attention,它是连接encoder和decoder之间的桥梁。
三、Cross attention
上图红色框中你会发现,有两个输入来自于encoder(图中蓝色圆圈),另外一个输入才来自decoder。那这个模组实际上是怎么运作的呢?假设我们现在输入一排向量给encoder,encoder输出一排向量a1,a2,a3后呢乘上一个矩阵产生;接下来轮到你的decoder,decoder会先吃进去一个特殊字符“beginning”,经过Masked self-attention以后,得到一个向量,把这个向量乘上一个矩阵做transform,得到一个query,记作q。紧接着把q与 做dot-product,计算得到attention的分数,这里加上一撇代表说你可能做过normalization后得到的结果。接下来再把分别乘上后加起来,得到。那这个v啊,就会被丢到FC中做处理。综上所述,q来自decoder,k跟v来自encoder,这个步骤就叫做Cross attention。
更一般的,现在假设产生一个中文字“机”,那接下来的操作也是跟上面一摸一样的。decoder输入“beginning”输入“机”产生一个向量,这个向量同样乘上一个矩阵做transform,得到一个query记作。这个同样跟去计算attention score得到;之后再分别乘上后加起来,得到,直接交给FC做处理。所以这就是Cross attention运作的过程
那写到现在,transformer简单的东西就已经全部表述完成了,关于代码的解析呢,目前还在酝酿当中 。再怎么说过年还是要玩两手牌的,所以就写到这里。