20210611 word2vec 理论介绍

2024-01-27 14:19:40

一、我们如何理解文本

首先分词，通过对一个一个词的理解，在通过一些句法规则或者语法理解这句话；句法规则或者语法可以通过网络框架进行建模，构造一个语言模型；知道每个词的意思后，通过语言模型理解这句话的意思；最基础的任务是，如何理解词意？最简单的理解方式是，给每个词一个唯一的索引，进行一一映射；有了映射后，可以拿这些映射代表这些词，使用这些映射进行统计学的理解分析，也可以对词意进行理解

二、one-hot 表示

1. 语料

我们都生活在阴沟里，但仍有人仰望星空。
每个圣人都有过去，每个罪人都有未来。
one-hot 就是把索引展开，用 0 1 的方式表示；对文本进行表示时，首先需要语料库，拿到语料后，首先对语料进行分词

2. 分词

[我们, 都, 生活, 在, 阴沟, 里, 但, 仍有, 人, 仰望, 星空]
[每个, 圣人, 都有, 过去, 每个, 罪人, 都有, 未来]
分词后，对每个词进行一一映射关系；并且要把重复的词进行去重，对去重后的每一个词进行索引的编码

最简单的 0 1 表示，下表就是对应位置的索引

one-hot 的表现形式，其实就是二进制的表现形式；这个映射表可以称之为词袋；one-hot 的长度就是词袋的长度，有了对每个词的表示后，如何理解句子呢？一般会用词袋模型表达对句子的理解

三、词袋模型 (Bag of Words)

每个词都可以用 one-hot 的表现形式表示；这句话的表现形式，用count 统计，纵向相加；得出来的结果就是词袋模型，词袋模型的长度和词典的长度是同长的，如果这个词出现了，这个词所对应的索引的下标就不是0，因为表示的是次数，词袋模型可以统计当前话里面出现了多少词以及词出现的词数；但是缺点是会忽略词的顺序关系，也无法表现出每个词的重要程度，当然这只是一种基础的文本表示，可以用模型来关注；为了解决词袋模型维度过高和无法表达词语的语义信息这 2 个缺点，引入 word2vec

四、word2vec

了解一个词，通过周边环境了解一个词，也就是通过上下文了解；很像中学时，完形填空英语题

1 NNLM

NNLM 是使用神经网络搭建的网络模型，这也是word2vec的基础；输入是一个词的前 n 个词（当然不是词本身，而是序号的表示），输出是当前词；将 one-hot表示映射到固定大小的矩阵空间来表示一个词；通过词的拼接或者相加等方式获得一个总向量；总向量通过 DNN 神经网络，也就是多层感知机；输出层是 Softmax，Softmax用于实现多分类，类似于 sigmoid，sigmoid 是做二分类，输出值是 0 和 1 之间；而 Softmax 是用来实现多分类的，最后也会输出一串概率值，只是这些概率值的和相加为 1；假设有 5000 个单词，Softmax会对结果进行 5000 分类，最后会判断是属于哪个类别，这是输出 NNLM 当时无法支持这种体量的计算，尤其是Softmax分类，计算的复杂度较高，所以当时虽然有了这样比较好的理论，但是业内没有起到比较好的效果

2 word2vec——基础架构

有了前面的使用深度神经网络实现 NLP 的基础后，后边就有了 word2vec；word2vec 的目的是获取一个词的稀疏的词向量表示；word2vec是在2014年开源的一个工具包；架构和 NNLM 是比较像的，只是 NNLM 是输入前 n-1 个词，预测第 n 个词；而 word2vec 是输入周边词，预测中心词；或者输入中心词，预测周边词

以 Skip-gram 为例

虽然是在训练语言模型，但是想要的是每一个词的向量表示

3 word2vec——实现过程

窗口是3，就是 Skip-gram 的output 是 3 个，中心词前面取 3 个，后面取 3 个；假设女王是中心词，前面只有英国，中心词后取 3 个，就是和瑞典国王；这就变成了模型的输入与输出；输入女王，或者是女王的 one-hot 表现形式，输出是女王的周边词；输入女王后，中间的 layers 是DNN的运算，有了DNN的运算后，会输出一个结果，词袋有多大，这个输出结果就有多大；然后通过 softmax 拿出词袋中所有词的预测输出，假设通过 softmax 后，都变成概率值，对应标签的概率是最高的；标签和预测输出做交叉熵，然后会得到一个 loss 值，通过 loss 值计算梯度，然后通过梯度下降改变权重值，我们的本质不是训练一个好的语言模型，本质是取模型固定的向量表示，固定的向量表示在哪里呢？

输入是 one-hot 表现形式，假设词袋中有10000个词，一万个词x(10000,300)，10000行，300列，300代表固定长度；认为得到的 300 就是当前词的 word2vec 值，然后计算周边词的概率，所以用300x(300,10000)，映射到 10000 维，然后套一个 softmax，相当于计算概率，这也是一个前向过程；输入一个词，进行线性的矩阵运算，得到一个 300 维，对 300 维再次进行矩阵运算，得到一个 10000 维，然后10000维套一个softmax 得到预测输出，这里是线性的，只有结果端进行分类时，才套一个 softmax； 300是当前词的 word2vec 值；现在把矩阵运算的细节再次细化；左侧下面的 [10000,300]权重就是要训练的 word2vec 值]

中间的（10000,300）矩阵就是当前所有词的word2vec的矩阵集合

然后通过得到的这个值，乘以(300,10000)矩阵，可以理解为这个词去寻找周边关系了，找到周边关系后，通过softmax 变成概率值

这个矩阵，就是所有词，比如 10000 个词的 word2vec 的矩阵集合；位置(0,300) “我们”映射是 0，下面那一行的权重，就是“我们”的 word2vec 值，“天气”下标是 9，下面的 word2vec 值就是“天气”的 word2vec 值

4 但是存在一个问题

计算softmax的地方和NNLM遇到的问题是一样的；计算 softmax 的前向过程的计算复杂度很高；计算反向过程修改权重时的计算复杂度也非常高，非常耗时，而且浪费算力；在2003年时，这种运算方式很不现实，现在虽然能够训练了，但是由于 word2vec 在计算语言模型的过程中，是一种无监督的计算，输入一个词的周边词，然后预测当前词，或者输入当前词预测周边词；海量的运算复杂度很高

word2vec的第二篇论文，如何训练，主要贡献是分层次 softmax 和负采样

修改了 softmax 的公式，将计算概率的过程用树模型代替；这样计算复杂度会大大降低

softmax 每次计算，只有一个词是周边词，其他词都是 0；因为只有一个 1 ，那么是否可以转化成二分类负采样问题？只有某几个词是对的，只把对的拿出来，然后采样几个错的，进行几个二分类；把 n 分类的过程，转变成几个二分类的过程；具体做法其实是在 loss 里做了更改；前向过程，计算一个语言模型，取出中间的结果/矩阵作为 word2vec 的值，语言模型的计算过程中 softmax 不是很好计算，使用特殊的训练方法使它可以快捷训练，这样就可以计算出 word2vec 的值了

5 效果示例

每个 word2vec 值是一个稠密矩阵，假定 word2vec 的值是 300，就会输出 300 个数值代表这个词；300数值的每个下标，都可能代表一种特征；比如下标 0 代表皇族气质等等；国王-男子气概+女子气质 = 女王；向量空间是可以这样计算的

6 优缺点

优点：1. 低维；
2. 可以表达词语的语义信息
缺点：1. 语义角度来看，无法解决单词的歧义问题，比如：小米，在不同场景有不同意思
2. OOV问题；未登录词问题，训练的词中如果没有这个词，是一定没有办法拿出这个词的 word2vec 值的

码农公寓