bert

预训练过程

代码在这里

在encoder最后一层,取出来被打mask的词的向量,加入线性层在变化为embending的输出,取得softmax进行celoss。

roberta的byte的编码方式
https://zhuanlan.zhihu.com/p/121787628

上一篇:Latex+VScode安装


下一篇:【转】控制理论结构图