对字节跳动 effective_transformermer的理解
transformer模型在self-attention的时候,需要用到统一输入batch的长度。但是其他模块不需要。因此,在其他模块(FF模块)可以移除pad token
2023-12-22 08:32:10
对字节跳动 effective_transformermer的理解
transformer模型在self-attention的时候,需要用到统一输入batch的长度。但是其他模块不需要。因此,在其他模块(FF模块)可以移除pad token