jieba分词归纳总结

一、jieba介绍

  jieba是NLP中常用的中文分词库

二、词库

1、默认词库

  jieba 默认有349046个词,然后每行的含义是  : 词 词频 词性

  首先来看看jieba分词每次启动时,做了件什么事情,它做了2件事情:

  1. 加载结巴自身的默认词库
  2. 将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库 缓存文件: jieba.cache
  • 使用add_word(word, freq=None, tag=None)del_word(word)可在程序中动态修改词典。
  • 使用suggest_freq(segment, tune=True)可调节单个词语的词频,使其能(或不能)被分出来。

2、自定义词库

  jieba.load_userdict(config.keywords_path)

三、词性标注

  词性(词类)是词汇中剧本的语法属性,而词性标注是在给定句子中判定每个词的语法范畴,确定它的词性并加以标注的过程。

 

jieba分词归纳总结

jieba分词归纳总结

 

 

 

 

 

参考

上一篇:dvwa+xampp搭建显示乱码的问题:解决办法


下一篇:python使用jieba得到文本关键词TextRank