自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning

资料放在前面:

文章的贡献如下:

(1)提出了一个基于最大化MI的理论框架来理解词表示学习模型,并将已知的方法统一到这个框架之中,如skip-gram,masked language modeling(如BERT)和permutation language modeling(如XLNET)。并指出BERT和Skip-gram其实在最大化一个相似的目标式,而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。

上一篇:​小课堂 -- 报错注入(Get)


下一篇:Mysql information_schema