阅读动机:dst和gsg有极大的关联性
pegasus预训练模型任务:将input的document内重要的句子mask掉,output是由留下的句子生成的新句子,有点类似于extractive summary
extractive summary:仅仅从input里面复制信息 abstractive summary:会生成新的词语(好的abstractive summary不仅包含了基本的input信息 而且语句流畅度好)
早前的工作基本都集中在如何做出高质量的数据集,几乎没有对模型的系统评估工作。该论文则是预训练abstractive summarization,然后在12个下游数据集上进行evaluate
该预训练任务GSG十分类似dst,或者换言之,dst就是一个summary-like generation
和以往的MASS\BART\T5模型不同,这个新模型不是把小的text span给mask掉 而是把整个句子给抹掉,而且句子也不是随机选择的,是选取了最重要的句子进行擦除,并且output不会包含原有的句子,只会是新生成的句子。
本文的杰出贡献之一是做了一个新的预训练任务GSG gap sentence generation,为了对比,还是设置了bert 、bert+gsg作为对照组
设置及实验部分待精读
预训练任务
gap sentence generation 中random和lead方式选mask掉的句子不再赘述,值得一提的是principal方法:选取重要程度最高的m个句子,重要程度计算方式:句子xi和剩余句子的ROUGE1-F1分。Ind:句子分数是独立的 Seq:一种之前的方法,通过最大化rouge1-F1分序列化选择句子;在集合选择上,Uniq:n-grams Orig:对相同的n-grams两次计数,排列组合就能有四种principal
masked language model 和BERT一样 不赘述 结果是不会对下游任务有积极影响 数据集则不再赘述
实验部分
由于PEGASUS的规模过大,作者团队做了消融实验以节省时间和算力:PEGASUSbase(对比PEGASUSlarge encoder-decoder层数16->12 隐藏层1024->768,feedback layer4096->3072,attention head 16->12) 位置encoding:sin 优化策略:Adafactor (旨在减少显存占用) dropout率 0.1
下面具体记录下该消融实验细节:
实验用PEGASUSbase来评估预训练数据集、预训练任务、数据集size的结果,使用c4公开数据集
预训练的语料
经试验验证得到预训练steps数对下游任务有很好的提升作用,最终采取500k steps来进行消融实验
上图可以发现在如果domain关联性较大,下游任务也就做得越好,这个从逻辑上也不难理解
预训练任务
GSG:
六种设置的gsg 最终得到Ind-Org的mask设置效果最好,后四种肯定始终比random地mask掉效果要好。在新闻类的数据集上,lead的表现很好(不是news的就不行),在我看来这也合乎逻辑。gsg超参数里面gap sentence radio的选择也很重要,太低了挑战性低,最好的performance总是低于50%,选取30%给到PEGASUSlarge做实验
MLM:
在gsg的基础上,把剩下的句子的15%用token码掉,有意思的是mlm在大概前100k-200k时候会improve ind-org ,但是到后面就会成为一个局限,因此在PEGASUSlarge里面不用mlm
预训练词汇规模
选了bpe和unigram做对比,词汇规模大小设置如上,最终选了unigram 96k
在大模型上的实验
在所有下游数据集上的实验结果 可以看到PEGASUSlarge效果很好,超过了大部分previous SOTA
这是和其他预训练模型的对比,有一个问题就是一些数据集的input document远比设置的最大输入要长,但是position encoding又不会随着length的增大而更新,作者验证了这个假设:sin会在L=1024的时候耶效果很好,所以不需要担心这个(也就是简单一说)。小规模摘要数据集在预训练的收益更大。
零或低资源的摘要
只从每个数据集选取了前10、100、1000、10000个训练例子来模拟zero and low- resource settings,2000 steps
with batch size 256, learning rate 0.0005,100个训练例子就能在PEGASUS上取得transformer20k-200k规模全监督数据集上得到的效果。在个别的例子上,参数量只有GPT-2一半的pegasus效果比gpt-2好多了。总而言之就是低资源也表现很好。
质量和真人评估
生成的摘要流畅度和连贯性都很高,非常接近ground-truth,并且没有发现前人所谓的“最大似然会导致输出重复出现”的结果,因此没有做额外措施来避免这个重复。
文章还发现使用聚类rouge的perplexity- optimized模型会使得模型质量变高。真人评估也取得最好的评价
重合数据分析
这部分主要是衡量预训练数据集和下游任务数据集的重叠程度,并研究了下能不能通过记忆来获得更好的结果。通过计算下游测试机和预训练docements的rouge-2。验证是否通过记忆的方法:过滤掉测试集中超过规定分数(对照组是1.0 0.8)的例子,过滤后也没改变rouge分数,因此应该是没有清晰的memorization的
进一步改进该模型
在C4和HugeNews的混合集合上训练,权重由数量决定;动态地选择gsr;重要的句子的分数上随机抽样加入20%的噪音;吧step从500k加到1.5M;更新sentence piece来encoder