Transformer

Transformer
seq2seq的模型很多,输入一排向量,输出一排向量,可以使用self-attention,rnn,cnn,而transformer使用的就是self-attention

transformer结构

Transformer
Transformer

Transformer

  1. residual
  2. norm (Layer Norm)
上一篇:swin transformer 总结


下一篇:transformer代码笔记----pre_process.py