RoBERTa与Adv-RoBERTa

2024-02-27 23:56:45

RoBERTa

RoBERTa：A Robustly Optimized BERT Pretraining Approach

比起bert的改进

1、训练的时间更长
2、移除了next predict loss(就是没有NSP部分)
3、训练的序列更长
4、动态调整masking机制
- bert使用的随机掩码和预测token，bert在实现预处理的时候执行一次掩码，得到一个静态掩码
  - 如dupe_factor=10， epoch=40，则每种mask的方式在训练中会被使用4次。（将训练数据复制dupe_factor份，对同一条数据，4个mask和10次）
- RoBERTa在每次输入一个序列时都会生成新的掩码模式
  
  Adv-RoBERTa
  - 还暂时没有公布论文
  - 在 RoBERTa 下游任务中加入了对抗性训练然后集成多模型表现