自然语言处理学习——论文分享——A Mutual Information Maximization Perspective of Language Representation Learning

2024-02-08 10:25:04

资料放在前面：

文章的贡献如下：

（1）提出了一个基于最大化MI的理论框架来理解词表示学习模型，并将已知的方法统一到这个框架之中，如skip-gram，masked language modeling（如BERT）和permutation language modeling（如XLNET）。并指出BERT和Skip-gram其实在最大化一个相似的目标式，而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。

码农公寓

相关文章