Transformer2024-02-05 20:11:52 seq2seq的模型很多,输入一排向量,输出一排向量,可以使用self-attention,rnn,cnn,而transformer使用的就是self-attention transformer结构 residual norm (Layer Norm) 上一篇:swin transformer 总结下一篇:transformer代码笔记----pre_process.py