对《OmniNet: Omnidirectional Representations from Transformers》方法的理解

1.OMNIDIRECTIONAL REPRESENTATIONS

对于一个L层的transformer网络,输入的数据维度是N×d,同理得transformer每一层的输出都是N×d。
x f o r m e r ( X ) = X 1 , X 2 ⋅ ⋅ ⋅ X L xformer(X)=X_1,X_2···X_L xformer(X)=X1​,X2​⋅⋅⋅XL​ , X i ∈ R N × d X_i ∈ R^{N×d} Xi​∈RN×d
对于上面的公式,得到的实际是transformer每一层的输出。
然后omninet的机制其实就是下面的公式:
O = A t t e n d ( I n d e x S o r t ( X 1 , X 2 , ⋅ ⋅ ⋅ X L ) ) O=Attend(IndexSort(X_1,X_2,···X_L)) O=Attend(IndexSort(X1​,X2​,⋅⋅⋅XL​))
就是将xformer的输出按索引序号排好串联在一起后进行self-attention,这时得到的O就拥有了每一层每个位置之间的注意力信息。将O展开成(L×N)×d后输入尺寸为L的最大池化,便得到N×d的向量 O ′ O^{\prime} O′,这个 O ′ O^{\prime} O′是具有transformer全方位注意力的向量,将其加到transformer最后一层的输出便可以获得带有全方位注意力的输出。

上一篇:硅谷硬核Rasa课程、Rasa培训、Rasa面试系列之:Rasa 3.x rasa run actions等运行命令学习


下一篇:硅谷硬核Rasa课程、Rasa培训、Rasa面试系列之:Rasa 3.x Rules