预训练过程
在encoder最后一层,取出来被打mask的词的向量,加入线性层在变化为embending的输出,取得softmax进行celoss。
roberta的byte的编码方式
https://zhuanlan.zhihu.com/p/121787628
2023-12-28 14:01:04
在encoder最后一层,取出来被打mask的词的向量,加入线性层在变化为embending的输出,取得softmax进行celoss。
roberta的byte的编码方式
https://zhuanlan.zhihu.com/p/121787628
下一篇:【转】控制理论结构图