1.OMNIDIRECTIONAL REPRESENTATIONS
对于一个L层的transformer网络,输入的数据维度是N×d,同理得transformer每一层的输出都是N×d。
x
f
o
r
m
e
r
(
X
)
=
X
1
,
X
2
⋅
⋅
⋅
X
L
xformer(X)=X_1,X_2···X_L
xformer(X)=X1,X2⋅⋅⋅XL ,
X
i
∈
R
N
×
d
X_i ∈ R^{N×d}
Xi∈RN×d
对于上面的公式,得到的实际是transformer每一层的输出。
然后omninet的机制其实就是下面的公式:
O
=
A
t
t
e
n
d
(
I
n
d
e
x
S
o
r
t
(
X
1
,
X
2
,
⋅
⋅
⋅
X
L
)
)
O=Attend(IndexSort(X_1,X_2,···X_L))
O=Attend(IndexSort(X1,X2,⋅⋅⋅XL))
就是将xformer的输出按索引序号排好串联在一起后进行self-attention,这时得到的O就拥有了每一层每个位置之间的注意力信息。将O展开成(L×N)×d后输入尺寸为L的最大池化,便得到N×d的向量
O
′
O^{\prime}
O′,这个
O
′
O^{\prime}
O′是具有transformer全方位注意力的向量,将其加到transformer最后一层的输出便可以获得带有全方位注意力的输出。