1.Transformer
Transformer 是由 Google 团队在 17 年 6 月提出的 NLP 经典之作,由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。
原文网址如下:
https://arxiv.org/pdf/1706.03762.pdf
Transfromer中使用了self-attention机制,那何为attention?
Attention其实就是一个当前的输入与输出的匹配度。
self-attention 具体原理
-
第一步,Encoder的每个输入单词创建三个向量,
即 Query vector, Key vector, Value vector,三个向量分别由embedding结果和权重矩阵相乘得到。 -
第二步,由q*k计算得分,得到关注度。
-
第三步,将数据处理的稳健,并进行softmax。
-
第四步,得分乘以Value向量值。
-
第五步,将value加权得到self-attention值。