elasticsearch中文分词插件IK安装
elasticsearch几种常用分词器如下:
分词器 | 分词方式 |
---|---|
StandardAnalyzer | 单字分词 |
CJKAnalyzer | 二分法 |
IKAnalyzer | 词库分词 |
其中常用的是IKAnalyzer,但IK是第三方插件,需要安装。
安装分词器
下载
IK软件包下载地址:
https://github.com/medcl/elasticsearch-analysis-ik/releases/tag/v6.3.1
在tags栏选择与自己es相同版本的包
IK version | ES version |
---|---|
master | 7.x -> master |
6.x | 6.x |
5.x | 5.x |
1.10.6 | 2.4.6 |
1.9.5 | 2.3.5 |
1.8.1 | 2.2.1 |
1.7.0 | 2.1.1 |
1.5.0 | 2.0.0 |
1.2.6 | 1.0.0 |
1.2.5 | 0.90.x |
1.1.3 | 0.20.x |
1.0.0 | 0.16.2 -> 0.19.0 |
unzip elasticsearch-analysis-ik-6.3.1.zip
解压后得到一个名为elasticsearch的文件夹,内容如下:
安装ik
在每个ES节点的,plugins目录下创建ik文件夹,将解压出来的文件全部拷贝到ik文件夹下。
mkdir -p ${your_es_dir}/plugins/ik
cp -a elasticsearch/* ${your_es_dir}/plugins/ik
重启ES
由于做了修改,重启一下ES。
测试IK中文分词
curl -X GET -H "Content-Type: application/json" "http://localhost:9200/_analyze?pretty=true" -d'{"text":"中华五千年华夏","analyzer": "ik_smart"}'
{
"tokens" : [
{
"token" : "中华",
"start_offset" : 0,
"end_offset" : 2,
"type" : "CN_WORD",
"position" : 0
},
{
"token" : "五千年",
"start_offset" : 2,
"end_offset" : 5,
"type" : "TYPE_CQUAN",
"position" : 1
},
{
"token" : "华夏",
"start_offset" : 5,
"end_offset" : 7,
"type" : "CN_WORD",
"position" : 2
}
]
}