Word embedding

目录

1. 背景知识

2. 如何实现word embedding?

3. 预测架构来生成 word vector

4. word vector的有趣现象

5. 文章的编码

 

 

1. 背景知识

我们在处理语言之前,需要先把字符转化为向量,怎么做呢?

Word embedding

word embedding的原理:

一个词,可以后上下文找到这个词的语义。

对了,这里有个小知识: “潮水” 中,潮是一个字,而“潮水”才是一个词。

2. 如何实现word embedding?

Word embedding

prediction based 的训练方式:

如果问题集里面有十万个词,那么这个network 的输出就是一个十万维的向量。

Word embedding

3. 预测架构来生成 word vector

预测下文的预测模型来生成word vector

Word embedding

Word embedding

Word embedding

一般上面的这个神经网络是一个一维的,提出者表示,没必要是deep的

Word embedding

其他的预测模型

Word embedding

4. word vector的有趣现象:

Word embedding

Word embedding

5. 文章的编码

方法一:bag of word

Word embedding

把文章的bag of word 丢到auto-encoder里面就可以得到文章的embedding了

但是词之间的顺序是很重要的,同样的bag of word 可能有不同的意思

Word embedding

 

 

Reference:

李宏毅,Unsupervised Learning: Word Embedding,http://speech.ee.ntu.edu.tw/~tlkagk/courses_ML17.html

上一篇:是否可以在C/C++应用程序中嵌入nginx


下一篇:An Intuitive Explanation of GraphSAGE