关于transformer理解

学习视频地址:

https://www.bilibili.com/video/BV1Di4y1c7Zm?from=search&seid=16737619548015070094

总体来说是这样一个架构。

关于transformer理解

encoding/decoding:

位置编码详解:

下面这个视频讲的很清晰。

https://www.bilibili.com/video/BV1vA411V71k?from=search&seid=16094804352675454411

大概就是说,通过泰勒展开,设H=I,然后二维位置可以采用复数思想,要做到(5)式,pq乘积可以表示一个相对位置

关于transformer理解

通过计算发现:

关于transformer理解

扩展到多维:

关于transformer理解

 

多头注意力机制:

多头+注意力机制

多头其实就是一个集成,将很多个注意力机制集成起来。

注意力机制:Q,K,V

残差:

关于transformer理解

防止梯度变为0.

layernorm:

BN有很多缺点:

例如size较小时候,用批量的mean和var估计所有的,可能会不准。

decoder部分的mask部分我觉得讲的不太清楚。。。以后再看。。

 

 

 

 

上一篇:C1认证:任务二作业二自测


下一篇:Android面试相关文章及Github学习资料,算法太TM重要了