解析:
1.GPT在BooksCorpus(800M单词)训练;BERT在BooksCorpus(800M单词)和*(2,500M单词)训练
2.GPT使用一种句子分隔符([SEP])和分类符词块([CLS]),它们仅在微调时引入;BERT在预训练期间学习[SEP],[CLS]和句子A/B嵌入
3.GPT用一个批量32,000单词训练1M步;BERT用一个批量128,000单词训练1M步
4.GPT对所有微调实验使用的5e-5相同学习率;BERT选择特定于任务的微调学习率,在开发集表现最佳
2023-10-27 15:04:10
解析:
1.GPT在BooksCorpus(800M单词)训练;BERT在BooksCorpus(800M单词)和*(2,500M单词)训练
2.GPT使用一种句子分隔符([SEP])和分类符词块([CLS]),它们仅在微调时引入;BERT在预训练期间学习[SEP],[CLS]和句子A/B嵌入
3.GPT用一个批量32,000单词训练1M步;BERT用一个批量128,000单词训练1M步
4.GPT对所有微调实验使用的5e-5相同学习率;BERT选择特定于任务的微调学习率,在开发集表现最佳