同一个项目中创建多个jieba对象

2023-10-19 12:00:40

背景

我们分词时，有时候会遇到不同的逻辑，需要分词的场景不一样。比如不同场景需要加载的自定义用户词典不同，比如医疗领域需要加载医疗词典，体育领域需要加载体育词典等。但是又都在一个项目中，这是我们就需要几个相互独立的jieba分词对象。

使用Tonkenizer解决

解决方案如下：

import jieba

jieba_obj1 = jieba.Tonkenizer()  # 定义第一个jieba对象
jieba_obj2 = jieba.Tonkenizer()  # 定义第二个jieba对象

jieba_obj1.load_userdict('user_dict_file')  # 第一个对象加载词典
jieba_obj2.lcut('这里的分词，就不会受jieba_obj1加载的用户自定义词典的影响')

其他

关于结巴分词的几个接口可参见 jieba的几个分词接口：cut、lcut、posseg.cut、posseg.lcut