transformer的encoder和decoder的差别

  • 包含两个 Multi-Head Attention 层。
  • 第一个 Multi-Head Attention 层采用了 Masked 操作。
  • 第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算,而Q使用上一个 Decoder block 的输出计算。
  • 最后有一个 Softmax 层计算下一个翻译单词的概率。

更详细的介绍见

详解Transformer (Attention Is All You Need) - 知乎

Transformer模型详解(图解最完整版) - 知乎

上一篇:Transformer结构及其应用详解--GPT、BERT、MT-DNN、GPT-2


下一篇:【NLP之transformer | Datawhale-9月】Task03:学习BERT