RoBERTa与Adv-RoBERTa

RoBERTa

RoBERTa:A Robustly Optimized BERT Pretraining Approach

比起bert的改进

  • 1、训练的时间更长

  • 2、移除了next predict loss(就是没有NSP部分)

  • 3、训练的序列更长

  • 4、动态调整masking机制

    • bert使用的随机掩码和预测token,bert在实现预处理的时候执行一次掩码,得到一个静态掩码

      • dupe_factor=10epoch=40, 则每种mask的方式在训练中会被使用4次。(将训练数据复制dupe_factor份,对同一条数据,4个mask和10次)
    • RoBERTa在每次输入一个序列时都会生成新的掩码模式

      RoBERTa与Adv-RoBERTa

      Adv-RoBERTa

      • 还暂时没有公布论文

      • 在 RoBERTa 下游任务中加入了对抗性训练然后集成多模型表现

上一篇:【靶场练习_sqli-labs】SQLi-LABS Page-2 (Adv Injections)


下一篇:界面跳转+信息传递+AS中如何将ADV转移到其他盘中