【HanLP】HanLP中文自然语言处理工具实例演练

HanLP中文自然语言处理工具实例演练

作者:白宁超

2016年11月25日13:45:13

摘要:HanLP是hankcs个人完成一系列模型与算法组成的Java工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点。 在提供丰富功能的同时,HanLP内部模块坚持低耦合、模型坚持惰性加载、服务坚持静态提供、词典坚持明文发布,使用非常方便,同时自带一些语料处理工具,帮助用户训练自己的语料。笔者坚定支持开源的项目,本文初衷是使用自然语言处理工具进行毕设的基本操作。后来发现HanLP真心的贴心,代码Java编写,文档结构严谨、目录清晰都是接地气的注释和解释。文档大家参照官方即可,本文篇一介绍HanLP相关的资料链接,篇二介绍HanLP的操作实战部分,后续文章进行源码分析。(本文原创编著,转载注明出处:HanLP中文自然语言处理工具实例演练。)

目录

【HanLP】HanLP资料链接汇总(1)

【HanLP】HanLP中文自然语言处理工具实例演练(2)

【HanLP】HanLP自然语言处理源码分析研究(3)

1 MyEclipse安装HanLP


【注】:本文主注重方法调用和操作,后续文章注重原理和源码分析。

具体操作扩展步骤参看官方文档,本文是作者操作记录,便于实际应用。HanLP将数据与程序分离,给予用户自定义的*。 HanLP由三部分组成:HanLP = .jar + data + .properties ,请前往 项目主页 下载这三个部分。

【HanLP】HanLP中文自然语言处理工具实例演练

1 其中jar、data.zip、hanlp.properties是安装配置文件,橘色框为源码。

2 打开MyEclipse新建项目HanLP,将jar放入lib包并构建依赖,data.zip、hanlp.properties均放入HanLP主目录下。

3 hanlp.properties进行修改,只需要改root=yourpath/HanLP即可

4 将修改后的hanlp.properties放入工作空间中 HanLP/bin下一份即可完成

5 测试分词:

【HanLP】HanLP中文自然语言处理工具实例演练

如上即在MyEclipse下完成HanLP安装,需要什么功能,只需要HanLP点就可以提示基本功能。这里说明一点,data下面model主要用于句法分析的,默认情况下原作者将其分割开了,需要的自行下载即可。

2 分词操作


3 词典


4 命名实体识别


5 篇章理解


6 繁简拼音转换


7 依存句法分析


8 智能推荐


9 Lucene插件


10 其他文档功能


上一篇:C库 - 常用文件IO函数


下一篇:jquery实现AJAX的4种方法