transformer的encoder和decoder的差别

2024-02-05 20:26:16

包含两个 Multi-Head Attention 层。
第一个 Multi-Head Attention 层采用了 Masked 操作。
第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算，而Q使用上一个 Decoder block 的输出计算。
最后有一个 Softmax 层计算下一个翻译单词的概率。

更详细的介绍见

详解Transformer （Attention Is All You Need） - 知乎

Transformer模型详解（图解最完整版） - 知乎