- 在我看来,说白了还是这种预训练模型已经见过了各种各样组够多的数据,我们去FT和PT其实就是在告诉模型我想利用如何利用你,我需要你给我做出什么样子的回答。尤其是PT这种模型,为什么few-shot和zero-shot就能起作用,其实就是模型本身已经见过组够多的数据了,我们只需要几个样本告诉他我们需要的是什么就够了。说到底如果想做出好的效果,大的预训练模型是一定要有的,因为目前来讲的机器学习和深度学习的模型都是需要样本训练,往往样本越多效果就越好,显然BERT、GPT3这种大模型见过的数据和我们自己组建模型所能见到的数据根本不在一个量级,自然效果不好。不过BERT这种模型见到的文章句子什么都有,各个领域的也都有,就造成了他存在一定的噪音,在某些精、专领域或许可以单独训练个大模型,这样针对某一领域的解决某类问题效果可能要好于bert(比如当今主要针对中文训练的一些模型就算是一种类似思路,但它只是在语言上,而不是在数据的内容和领域上做了区分),当然换个角度考虑,bert正是因为如此才有更好的通用性,能够用来解决各种各样的NLP任务