NLP-预训练模型-2019：T5【Text-to-Text 预训练模型超大规模探索】

2023-10-29 22:39:28

《原始论文：Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》

2019年10月，Google 在《Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer》这篇论文中提出了一个最新的预训练模型 T5（Text-To-Text Transfer Transformer），其参数量达到了 110 亿，完爆 Bert Large 模型，且在多项 NLP 任务中达到 SOTA 性能。有人说，这是一种将探索迁移学习能力边界的模型。

当然，最大的冲击还是财大气粗，bigger and bigger，但翻完它长达 34 页的论文，发现其中的分析无疑是诚意满满（都是钱）。类似这样的大型实验探索论文也有一些，首先提出一个通用框架，接着进行了各种比对实验，获得一套建议参数，最后得到一个很强的 baseline。而我们之后做这方面实验就能参考它的一套参数。

对于 T5 这篇论文，Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer，无疑也是类似的论文。它的意义不在烧了多少钱，也不在屠了多少榜（砸钱就能砸出来），其中 idea 创新也不大，它最重要作用是给整个 NLP 预训练模型领域提供了一个通用框架，把所有任务都转化成一种形式，正如论文里所说的

introducing a unified framework that converts every language problem into a text-to-text format.

之后未来做 NLP 实验时，可能就不再是自己怎么调一些模型了，而是无论什么任务，直接拿来一个超大预训练模型，然后主要工作就变成了怎么把任务转换成合适的文本输入输出，于是我们就成了带引号的”数据科学家“。而且可以用于多种任务，而模型对这些任务的区分只是根据你构建的输入输出形式，其实这让我想起 Jeff Dean 在某次谈话中谈到的谷歌未来方向，想做一个超级模型，什么任务都能直接处理，而它内部可以是稀疏的，或者可以局部 Distill，来对单独任务进行处理。

参考资料：
T5，一个探索迁移学习边界的模型
 T5 模型：NLP Text-to-Text 预训练模型超大规模探索
 Google预训练语言模型T5

码农公寓

相关文章