Transformer block拆解

2024-02-05 20:27:46

Transformer block拆解

基本结构

basic参数

or : total number of transformer blocks

or : number of units in each bottleneck layer, and number of units of each Q/K/V input

or : number of heads of each transformer block

or : input sequence length

derived参数

: dimension of each attention head,

: intermediate layer units of feed forward layer,