一、概述
中文文本需要通过分词获得单个词语
jieba中文分词的第三方库,需额外安装。
二、安装
cmd命令行 pip install jieba
三、分词原理
四、分词的三种模式:精确模式、全模式、搜索引擎模式
精确模式、精确且分开,不存在冗余单词
全模式、所有可能的词语都扫描出来,有冗余
搜索引擎模式、在精确模式基础上,对长词再次切分
五、常用函数
2023-07-23 22:59:46
一、概述
中文文本需要通过分词获得单个词语
jieba中文分词的第三方库,需额外安装。
二、安装
cmd命令行 pip install jieba
三、分词原理
四、分词的三种模式:精确模式、全模式、搜索引擎模式
精确模式、精确且分开,不存在冗余单词
全模式、所有可能的词语都扫描出来,有冗余
搜索引擎模式、在精确模式基础上,对长词再次切分
五、常用函数