Jieba库
一.概述
1.由于中文汉字之间是连续书写的,不像英文单词之间是空格隔开的,获得汉语的词组
2.就需要特殊的手段,即:分词
3.Jieba是优秀的中文分词 第三方库
4.Jieba 提供三种分词模式,最简单只需要掌握一个函数
二.Jieba库分词的原理
1.利用中文词库,确定汉字之间的关联概率,汉字之间关联概率的组成词组,形成分词结果。
2.处理jieba库自带的词库,用户也可自定义词组,从而是词库更适合某些特殊领域
三.三种模式
1.精确模式:把文本精确的切分,不存在冗余单词
2.全模式:列出所有可能的单词,存在冗余
3.搜索引擎模式:
四.常用函数
1.Jieba.lcut(str) = cut string into list
Jieba.lcut(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
2.Jieba.lcut(‘中国是一个伟大的国家’ , cut_all=True)
['中国', '国是', '一个', '伟大', '的', '国家']
3.Jieba.lcut_for_search(‘中国是一个伟大的国家’)
['中国', '是', '一个', '伟大', '的', '国家']
和精确分词没有区别,因为没有长的词
比较: a = ‘*是一个伟大的国家’
Jieba.lcut(a)
['*', '是', '一个', '伟大', '的', '国家']
Jieba.lcut_for_search(a)
['中华', '华人', '人民', '共和', '*', '*', '是', '一个', '伟大', '的', '国家']
4.Jieba.add_word(string) 向分词词典增加新词string
Jieba.add_word(‘蟒蛇语言’)
相关文章
- 03-21python day 16 jieba库
- 03-21python 学习jieba库遇到的问题及解决方法
- 03-21Python学习day44-数据库(单表及多表查询)
- 03-21Day 16 : Python 时间模块[time,]datetime[]及第三方模块的下载与安装
- 03-21DAY2 Python 标准库 -> Getpass 模块 -> 命令行下输入密码的方法.
- 03-21python摸爬滚打之day16----类的成员
- 03-21python练习题-day16
- 03-21day16-python之函数式编程匿名函数
- 03-21python 全栈 day16
- 03-21python基础教程_学习笔记16:标准库:一些最爱——random