这是网友用268G+语料训练好的word2vec模型。
训练语料:
- 百度百科800w+条,26G+
- 搜狐新闻400w+条,13G+
- 小说:229G+
下载链接:https://pan.baidu.com/s/1WH4exhHdSK3MwFPjFZK_xA
提取码:hosi
模型参数:
- window=5
- min_count=10
- size=128
- hs=1
- negative=0
- iter=5
- ps:其它参数见gensim库,执行代码为:gensim.models.Word2Vec(sentence, window=5, min_count=10, size=128, workers=4,hs=1, negative=0, iter=5)
其它相关:
- 分词词典使用了130w+词典。分词代码:jieba.lcut(sentence),默认使用了HMM识别新词;
- 剔除了所有非中文字符;
- 最终得到的词典大小为6115353;
- 模型格式有两种bin和model,使用方式:
a. bin模式:model = gensim.models.KeyedVectors.load_word2vec_format(model_path, binary=True)
b. model模式:model = gensim.models.Word2Vec.load(model_path) - 文件压缩后大小与未压缩相近,因此未压缩。
baike_26g_news_13g_novel_229g.bin文件与下方代码在同一层级目录,即可运行,如输入“乔峰”,则打印相似度最相似的10个单词,可以发现还是比较准确的。
import gensim
model=gensim.models.KeyedVectors.load_word2vec_format("baike_26g_news_13g_novel_229g.bin", binary=True)
for word,similarity in model.most_similar(u'乔峰',topn=10):
print(word, similarity)
慕容复 0.914642333984375
萧峰 0.884083092212677
洪七公 0.8724542260169983
萧远山 0.8711599111557007
段延庆 0.8710967302322388
张无忌 0.861467719078064
林平之 0.8604815006256104
全冠清 0.8547517657279968
慕容博 0.8489874601364136
虚竹 0.8482588529586792
参考文章:
268G+训练好的word2vec模型(中文词向量) - 简书