处理时间序列数据的高端模型Transformer和代码实现

1.Transformer

Transformer 是由 Google 团队在 17 年 6 月提出的 NLP 经典之作,由 Ashish Vaswani 等人在 2017 年发表的论文 Attention Is All You Need 中提出。
原文网址如下:
https://arxiv.org/pdf/1706.03762.pdf

Transfromer中使用了self-attention机制,那何为attention?
Attention其实就是一个当前的输入与输出的匹配度。

self-attention 具体原理

  • 第一步,Encoder的每个输入单词创建三个向量,
    即 Query vector, Key vector, Value vector,三个向量分别由embedding结果和权重矩阵相乘得到。

  • 第二步,由q*k计算得分,得到关注度。

  • 第三步,将数据处理的稳健,并进行softmax。

  • 第四步,得分乘以Value向量值。

  • 第五步,将value加权得到self-attention值。

上一篇:华为配置Eth-Trunk接口流量本地优先转发


下一篇:如何在PHP中正确使用WooCommerce订阅API?