[CS224N] Note2
Word2vec
\(P(w_{t+j}|w_t;\theta)\)其中\(\theta\)是词向量参数,是一个客观存在的东西
对于Likelihood,已知概率分布求参数即词向量。
那么问题就变成\(\max_\theta Likelihood \Rightarrow \min_\theta Objective\)
对于Likelihood中的概率连乘,概率使用\(P(o|c)\)即给定中心词的条件下的周边词概率。 根据参数估计理论,我们需要使用参数表达出概率分布,因此给词向量一个定义:即越相似的词向量空间越接近,此时\(U\cdot V_c^\mathrm{T}\)得到一个\(n\times 1\)的矩阵,再通过softmax操作将其概率化。
Skip-Gram on Naïve Softmax
Example Sentence: I love NLP today.
\(J(\theta)=-\frac{1}{T}\sum^T_{t=1}\sum_{-m\le j\le m}\log P(w_{t+j}|w_t;\theta)\)
此时,T=4,设m=2
当t=2,\(w_t\)=love时,则子项为\(\log P(I|love)\) and \(\log P(NLP|love)\)
此时,\(\log P(I|love)=\frac{\exp(u_I^Tv_{love})}{\sum_{w\in V}\exp (u_w^T v_{love})}\)
Skip-Gram on co-occurence
构造共现矩阵,这样会产生很大很稀疏的矩阵。 因此,要做一些操作:奇异值分解
还有一种小trick使用阈值处理高频词(he the it...)