Transformer XL源码实现

2023-10-24 11:21:10

1，人工智能中最重要的公式之一MLE数学本质剖析及代码实战

2，Language Model的数学原理、Chain Rule剖析及Sparsity问题

3，Markov Assumption：first order、second order、third order剖析

4，Language Model：unigram及其问题剖析、bigram及依赖顺序、n-gram

5，使用Unigram训练一个Language Model剖析及实践

6，使用Bigram训练一个Language Model剖析及实践

7，使用N-gram训练一个Language Model剖析及实践

8，拼写纠错案例实战：基于简化后的Naive Bayes的纠错算法详解及源码实现

9，使用基于Average Log Likelihood的PPL(Perplexity)来评估Language Model

10，Laplace Smoothing剖析及基于PPL挑选最优化K的具体方法分析

11，Interpolation Smoothing实现解析：加权平均不同的N-gram概率

12，Good-Turning Smoothing算法解析

13，Vallina Transformer language model处理长文本架构解析

14， Vallina Transformer Training Losses：Multiple Postions Loss、Intermediate Layer Losses、Multiple Targets Losses

15，Vallina Transformer的三大核心问题：Segment上下文断裂、位置难以区分、预测效率低下

16，Transformer XL：Attentive Language Models Beyond a Fixed-Length Context

17，Segment-level Recurrence with State Reuse数学原理及实现分析

18，Relative Positional Encoding算法解析

19，Transformer XL 中降低矩阵运算复杂度的Trick解析

20，缓存机制在语言模型中的使用思考

21，Transformer XL之数据预处理完整源码实现及调试

22，Transformer XL之MemoryTransformerLM完整源码实现及调试

23，Transformer XL之PartialLearnableMultiHeadAttention源码实现及调试

24，Transformer XL之PartialLearnableDecoderLayer源码实现及调试

25，Transformer XL之AdaptiveEmbedding源码实现及调试

26，Transformer XL之相对位置编码PositionalEncoding源码实现及调试

27，Transformer XL之Adaptive Softmax解析及源码完整实现

28，Transformer XL之Training完整源码实现及调试

29，Transformer XL之Memory更新、读取、维护揭秘

30，Transformer XL之Unit单元测试

31，Transformer XL案例调试及可视化

码农公寓