word2vec

lanyu_01 《word2vec Parameter Learning Explained》论文学习笔记

CBOW(Continuous Bag-of-Word Model)

one-word context

设定context(预测目标单词的上下文)仅有一个单词,即使用一个单词的context去预测目标单词。
word2vec
上图即为one-word context下的神经网络模型,相邻层为全连接,输入层使用one-hot encoder的单词向量\(\boldsymbol x=(x_1,...,x_k,...,x_V)^T\),权重矩阵\(W_{V\times N}\),则有:

\[h=W^T\boldsymbol x \]

由于\(\boldsymbol X\)中仅有一个\(x\)为1,设其中\(x_k=1\),则上式等于\(W\)的第\(k\)行,即\(h=V_{W_k}^T\),这就是输入向量
隐藏层的激活函数是线性的,也就是对\(h=V_{W_k}^T\)不做任何处理。
隐藏层到输出层的权重矩阵为\(W_{N\times V}^{'}\),则有:

\[o=W_{N\times V}^{'}\times V_{W_k}^T=W_{N\times V}^{'}\times h \]

前面我们说了,对于输入层到隐藏层,\(h\)的结果其实是对于单词\(\boldsymbol x\)one-hot encoder中1的位置\(k\)索引的\(W\)的第\(k\)行的转置,那么对于词表中的每一个单词都可以计算出一个得分:

\[\mu _j =\boldsymbol v _{W_j^{'}}h \]

注意这里的\(v_{W_j^{'}}\)实际上是\(W^{'}\)的第j行,原因是最后得到的o是一个one-hot encoder形式的向量。
此时我们得到了context对应于其它所有单词向量的一个得分向量。

  • 以上我们可以总结得到:输入向量是\(W\)的某一行,输出向量是\(w^{'}\)的某一列。

Multi-word context

对于Multi-word context:
word2vec
将多个context相加平均再进行one-word context的步骤即可。

上一篇:分享一下学习css,js心得


下一篇:机器学习3- 一元线性回归+Python实现