资料放在前面:
文章的贡献如下:
(1)提出了一个基于最大化MI的理论框架来理解词表示学习模型,并将已知的方法统一到这个框架之中,如skip-gram,masked language modeling(如BERT)和permutation language modeling(如XLNET)。并指出BERT和Skip-gram其实在最大化一个相似的目标式,而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。
2024-02-08 10:25:04
资料放在前面:
文章的贡献如下:
(1)提出了一个基于最大化MI的理论框架来理解词表示学习模型,并将已知的方法统一到这个框架之中,如skip-gram,masked language modeling(如BERT)和permutation language modeling(如XLNET)。并指出BERT和Skip-gram其实在最大化一个相似的目标式,而他们最大的不同即为所选择的encoder----一个依赖于语境的以一个句子作为输入的Transformer还是一个查表式的嵌入矩阵。