一、jieba介绍
jieba是NLP中常用的中文分词库
二、词库
1、默认词库
jieba 默认有349046个词,然后每行的含义是 : 词 词频 词性
首先来看看jieba分词每次启动时,做了件什么事情,它做了2件事情:
- 加载结巴自身的默认词库
- 将默认词库模型 加载到本机缓存,之后每次都从本地缓存中去加载默认词库
缓存文件: jieba.cache
- 使用
add_word(word, freq=None, tag=None)
和del_word(word)
可在程序中动态修改词典。 - 使用
suggest_freq(segment, tune=True)
可调节单个词语的词频,使其能(或不能)被分出来。
2、自定义词库
jieba.load_userdict(config.keywords_path)
三、词性标注
词性(词类)是词汇中剧本的语法属性,而词性标注是在给定句子中判定每个词的语法范畴,确定它的词性并加以标注的过程。