模块jieba库的使用

模块jieba库的使用

一 jieba库基本介绍

1.1 jieba库的概念

jieba库是优秀的中文分词第三方库
  • 中文文本需要通过分词获得单个的词语
  • jieba是优秀的中文分词第三方库,需要额外安装
  • jieba库提供三种分词模式,最简单只需掌握一个函数

1.2 jieba库的安装

pip install jieba (cmd命令行) 模块jieba库的使用模块jieba库的使用

1.3 jieba分词的原理

jieba分词依靠中文词库
  • 利用一个中文词库,确定汉字之间的关系概念
  • 汉字间概率大的组成词组,形成分词结果
  • 除了分词,用户还可以添加自定义的词组

jieba库使用说明

2.1 jieba分词的三种模式

  • 精确模式:把文本精确的切分开,不存在冗余单词
  • 全模式:把文本中所有可能的词语都扫描出来,有冗余
  • 搜索引擎模式:在精确模式基础上,对长词再次切分

2.2 jieba库常用函数

模块jieba库的使用模块jieba库的使用模块jieba库的使用模块jieba库的使用

2.3 分词要点

模块jieba库的使用模块jieba库的使用

下面是代码演示

import jieba txt = '中国,是以华夏文明为源泉、中华文化为基础,并以汉族为主体民族的多民族国家,通用汉语、汉字,汉族与少数民族被统称为“中华民族”,又自称为炎黄子孙、龙的传人。' # 精确模式 # res = jieba.cut(txt)  # 获取可迭代对象   res = jieba.lcut(txt)  # 生成的是一个列表   # 全模式 # res1 = jieba.cut(txt, cut_all=True)  # 获取可迭代对象   res1 = jieba.lcut(txt, cut_all=True) # 生成的是一个列表     # 搜索引擎模式 # res2 = jieba.cut_for_search(txt)  # 获取可迭代对象   res2 = jieba.lcut_for_search(txt)  # # 生成的是一个列表   # for i in res2:   print(res2)
上一篇:Python基础库之jieba库的使用(第三方中文词汇函数库)


下一篇:SimHash算法--文章相似度匹配