背景
我们分词时,有时候会遇到不同的逻辑,需要分词的场景不一样。比如不同场景需要加载的自定义用户词典不同,比如医疗领域需要加载医疗词典,体育领域需要加载体育词典等。但是又都在一个项目中,这是我们就需要几个相互独立的jieba分词对象。
使用Tonkenizer解决
解决方案如下:
import jieba
jieba_obj1 = jieba.Tonkenizer() # 定义第一个jieba对象
jieba_obj2 = jieba.Tonkenizer() # 定义第二个jieba对象
jieba_obj1.load_userdict('user_dict_file') # 第一个对象加载词典
jieba_obj2.lcut('这里的分词,就不会受jieba_obj1加载的用户自定义词典的影响')
其他
关于结巴分词的几个接口可参见 jieba的几个分词接口:cut、lcut、posseg.cut、posseg.lcut