第27章:处理长文本的模型BigBird架构及完整源码实现

1,Sparse attention机制内幕及数学原理剖析

2,全局global attention的数据原理及实现机制

3,Block sparse attention数学原理及实现机制

4,Sliding attention数学原理及实现机制

5,Random attention数学原理及实现机制

6,Time & Memory Complexity分析

7,BigBirdTokenizer源码完整实现剖析

8,BigBirdEmbeddings源码完整实现剖析

9,BigBirdAttention源码完整实现剖析

10,BigBirdSelfAttention源码完整实现剖析

11,BigBirdBlockSparseAttention源码完整实现剖析

12,BigBirdIntermediate源码完整实现剖析

13,BigBirdOutput源码完整实现剖析

14,BigBirdLayer源码完整实现剖析

15,BigBirdEncoder源码完整实现剖析

16,BigBirdPredictionHeadTransform源码完整实现剖析

17,BigBirdLMPredictionHead源码完整实现剖析

18,BigBirdOnlyMLMHead源码完整实现剖析

19,BigBirdOnlyNSPHead源码完整实现剖析

20,BigBirdPreTrainingHeads源码完整实现剖析

21,BigBirdPreTrainedModel源码完整实现剖析

22,BigBirdForPreTrainingOutput源码完整实现剖析

23,BigBirdModel源码完整实现剖析

24,BigBirdForPreTraining源码完整实现剖析

25,BigBirdForMaskedLM源码完整实现剖析

26,BigBirdForCausalLM源码完整实现剖析

27,BigBirdClassificationHead源码完整实现剖析

25,BigBirdForQuestionAnsweringModelOutput源码完整实现剖析

26,BigBirdForSequenceClassification源码完整实现剖析

27,BigBirdForMultipleChoice源码完整实现剖析

28,BigBirdForTokenClassification源码完整实现剖析

29,BigBirdForQuestionAnsweringHead源码完整实现剖析

30,BigBirdForQuestionAnswering源码完整实现剖析

上一篇:Sketch 56 for mac(矢量绘图软件)更新了哪些内容?


下一篇:Transformer稀疏模型:​将文本、图像、声音一网打尽