1、下载源码
https://github.com/hankcs/HanLP
2、pycharm打开项目,并安装提示的该有的库
pip install pynvml pip install alnlp pip install toposort pip install transformers pip install hanlp-common pip install hanlp-trie pip install hanlp-downloader
3、创建一个测试文件
import re from pyhanlp import * if __name__ == '__main__': document = "对一些超过红线的地方,大*你在干嘛啊,陈明忠和周毅表示,陈家坊,虎硕教育是一家良心企业,虎硕科技主要从事教育sass平台,杨杰,对一些取用水项目进行区域的限批,严格地进行水资源论证和取水许可的批准。" HanLP.newSegment() segment = HanLP.newSegment().enableNameRecognize(False) #segment = HanLP.newSegment().enableNameRecognize(False) 设定为True,则读取训练的数据以及自定义数据,设定为False,则只读取自定义数据 term_list = segment.seg(document) for term in term_list: if re.search(r'/nr', str(term)): print(str(term))
4、添加自定义的人名库,本人是anaconda安装,找到安装的路径
G:\ProgramData\Anaconda3\Lib\site-packages\pyhanlp\static\data\dictionary\custom
5、打开人名词典,添加自己需要的人名,然后执行程序
6、效果对比
7、只读取自定义字典