Why transformer?(三)

在这一部分我们就要弄明白“encoder和decoder之间是怎么传递讯息的”了,如果你仔细观察下图红方块那一块的话(也就是我们在 Why transformer(二)中遮起来的那一块),那我们就把这一块叫做Cross attention,它是连接encoder和decoder之间的桥梁。

Why transformer?(三)

三、Cross attention 

上图红色框中你会发现,有两个输入来自于encoder(图中蓝色圆圈),另外一个输入才来自decoder。那这个模组实际上是怎么运作的呢?假设我们现在输入一排向量给encoder,encoder输出一排向量a1,a2,a3后呢乘上一个矩阵产生Why transformer?(三);接下来轮到你的decoder,decoder会先吃进去一个特殊字符“beginning”,经过Masked self-attention以后,得到一个向量,把这个向量乘上一个矩阵做transform,得到一个query,记作q。紧接着把q与Why transformer?(三) 做dot-product,计算得到attention的分数Why transformer?(三),这里加上一撇代表说你可能做过normalization后得到的结果。接下来再把Why transformer?(三)分别乘上Why transformer?(三)后加起来,得到Why transformer?(三)。那这个v啊,就会被丢到FC中做处理。综上所述,q来自decoder,k跟v来自encoder,这个步骤就叫做Cross attention。

Why transformer?(三)

更一般的,现在假设产生一个中文字“机”,那接下来的操作也是跟上面一摸一样的。decoder输入“beginning”输入“机”产生一个向量,这个向量同样乘上一个矩阵做transform,得到一个query记作Why transformer?(三)。这个Why transformer?(三)同样跟Why transformer?(三)去计算attention score得到Why transformer?(三);之后再分别乘上Why transformer?(三)后加起来,得到Why transformer?(三),直接交给FC做处理。所以这就是Cross attention运作的过程

Why transformer?(三)

那写到现在,transformer简单的东西就已经全部表述完成了,关于代码的解析呢,目前还在酝酿当中 。再怎么说过年还是要玩两手牌的,所以就写到这里。

上一篇:日志中出现Too many open files问题的原因及解决


下一篇:深度学习-序列模型1