论文略读:Onthe Expressivity Role of LayerNorm in Transformers’ Attention

  • LayerNorm 帮助 Attention 设计一个注意力查询,这样所有的Key都可以平等地访问
  • 通过将Key向量投影到同一个超平面上来实现这一点,从而使模型能够将查询对齐
  • ——>这样Attention 组件就无需自己学习如何执行此操作
  • 上一篇:Python Excel 指定内容修改


    下一篇:计网总结☞应用层