python day 16 jieba库

Jieba库
一.概述
1.由于中文汉字之间是连续书写的,不像英文单词之间是空格隔开的,获得汉语的词组
2.就需要特殊的手段,即:分词
3.Jieba是优秀的中文分词 第三方库
4.Jieba 提供三种分词模式,最简单只需要掌握一个函数
二.Jieba库分词的原理
1.利用中文词库,确定汉字之间的关联概率,汉字之间关联概率的组成词组,形成分词结果。
2.处理jieba库自带的词库,用户也可自定义词组,从而是词库更适合某些特殊领域
三.三种模式
1.精确模式:把文本精确的切分,不存在冗余单词
2.全模式:列出所有可能的单词,存在冗余
3.搜索引擎模式:
四.常用函数
1.Jieba.lcut(str) = cut string into list
Jieba.lcut(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
2.Jieba.lcut(‘中国是一个伟大的国家’ , cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
3.Jieba.lcut_for_search(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
和精确分词没有区别,因为没有长的词
比较: a = ‘*是一个伟大的国家’
Jieba.lcut(a)
['*', '是', '一个', '伟大', '的', '国家']
Jieba.lcut_for_search(a)
['中华', '华人', '人民', '共和', '*', '*', '是', '一个', '伟大', '的', '国家']
4.Jieba.add_word(string) 向分词词典增加新词string
Jieba.add_word(‘蟒蛇语言’)

上一篇:使用jieba分词计算txt中文本的词频


下一篇:NER