摘要
transformer模型已在各种领域中取得了最先进的结果。 但是,对训练注意力机制以学习远程输入之间的复杂依存关系的成本的担忧不断增加。利用学习的注意力矩阵的结构和稀疏性的解决方案出现了。 但是,涉及长序列的实际应用(例如生物序列分析)可能无法满足这些假设,从而无法探索这些模型。 为了解决这一挑战,我们提出了一种基于快速随机正交特征(FAVOR)的新型Transformer架构,Performer。 我们的机制在token中的token数量上线性缩放,而不是平方缩放,其特征在于亚二次空间复杂度,并且不包含任何先验稀疏性模式。 此外,它提供了有力的理论保证:注意力矩阵的无偏估计和一致收敛。 它也与预训练的regularTransformers向后兼容。 我们证明了其对蛋白质序列建模的挑战性任务的有效性,并提供了详细的理论分析。
transformer出现的问题
注意机制的近似值不足。 由于梯度仅在局部窗口内传播,因此基于截短反向传播的近似值也无法捕获远距离相关性。
performer解决的问题
我们基于正交随机特征(FAVOR)的快速注意力,提出了一种新的Transformer架构,Performer。 FAVOR设计用于长输入序列,其中token数表示用于嵌入维数。 与以前的方法相比,我们没有通过各种结构先验来简化常规注意力(这可能导致不同的,潜在的不兼容的体系结构),而是显示了它可以按原样有效地近似,而没有任何“提升”。 这使我们的方法变得灵活:与少量的微调结合,Performer可与预训练的常规Transformer向后兼容,并且也可以在Transformer范围之外用作常规关注的扩展的替代品。
FAVOR机制
输入,其中隐藏维度(潜伏表示的维数)。 矩阵Q,K,V是输入及其行的中间表示形式,可以分别解释为连续字典数据结构的查询,键和值。双向(或无向)点积的z注意力形式如下
tril(·)返回参数矩阵的下三角部分,包括对角线。单向注意力在生成transformer以及Seq2Seq的解码器部分中用作自注意力,而双向注意力在Seq2Seq架构中的编码器自注意力和编码器-解码器注意力中使用。