- 包含两个 Multi-Head Attention 层。
- 第一个 Multi-Head Attention 层采用了 Masked 操作。
- 第二个 Multi-Head Attention 层的K, V矩阵使用 Encoder 的编码信息矩阵C进行计算,而Q使用上一个 Decoder block 的输出计算。
- 最后有一个 Softmax 层计算下一个翻译单词的概率。
更详细的介绍见
详解Transformer (Attention Is All You Need) - 知乎
2024-02-05 20:26:16
更详细的介绍见
详解Transformer (Attention Is All You Need) - 知乎