在前面几节,我们看了一下solr的基本用法,这一节我们将看一下在solr中配置分词器、停词库以及扩展词库。
1、前提约束
- 完成solr的安装和启动
https://www.jianshu.com/p/de807e2ef12f
笔者的solr路径位于/root/solr-4.10.3
solr的web端部署于/root/apache-tomcat-8.0.33
2、操作步骤:
- 未配置前的测试
2.1、配置
- 上传jar包IKAnalyzer2012FF_u1.jar
将IKAnalyzer2012FF_u1.jar上传到/root/apache-tomcat-8.0.33/webapps/solr/WEB-INF/lib,就可以完成中文的分词。 - 修改/root/solr-4.10.3/example/solr/collection1/conf/schema.xml
<fieldType name="text_ik" class="solr.TextField">
<analyzer class="org.wltea.analyzer.lucene.IKAnalyzer"/>
</fieldType>
<field name="companyname" type="text_ik" indexed="true" stored="true"/>
<field name="companydesc" type="text_ik" indexed="true" stored="true"/>
<field name="item_keywords" type="text_ik" indexed="true" stored="true" multiValued="true" />
<copyField source="companyname" dest="item_keywords"/>
<copyField source="companydesc" dest="item_keywords"/>
- 创建/root/apache-tomcat-8.0.33/webapp/solr/WEB-INF/classes文件夹,在该文件夹创建IKAnalyzer.cfg.xml、ext.dic、stopword.dic文件夹。
IKAnalyzer.cfg.xml内容如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">ext.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
ext.dic乃扩展词库,内容如下,请注意第一行空:
万和
江苏万和
stopword.dic乃停词库,内容如下,请注意第一行空:
的
是
一个
- 重启tomcat
2.2、测试
- 测试扩展词库
- 测试停词库
以上就是solr中的分词、停词以及扩展词库。