RoBERTa
RoBERTa:A Robustly Optimized BERT Pretraining Approach
比起bert的改进
-
1、训练的时间更长
-
2、移除了next predict loss(就是没有NSP部分)
-
3、训练的序列更长
-
4、动态调整masking机制
2024-02-27 23:56:45
RoBERTa:A Robustly Optimized BERT Pretraining Approach
1、训练的时间更长
2、移除了next predict loss(就是没有NSP部分)
3、训练的序列更长
4、动态调整masking机制