Solr

2023-12-04 17:24:16

运行solr

Solr的运行分为单机运行和集群运行，这里以单机为例：

1. 在bin目录下执行bin/solr start 此命令会启动solr应用服务器默认端口为8983，如果想指定端口号启动可以加参数–p例如：solr start –p 8888.

如图这句提示出现后证明服务启动成功(启动过程中如果打印java异常堆栈log4j2.xml 文件名、目录名或卷标语法不正确。没有关系不妨碍我们正常使用solr可以忽略此问题)，接下来在浏览器输入http://localhost:8888/solr可以进入Admin UI界面验证是否启动成功如下图

此界面是用来管理solr的,此时solr服务器已经可以启动成功啦下面介绍一下其他比较常用的solr命令。

2. solr常用命令：

solr start –p 端口号单机版启动solr服务

solr restart –p 端口号重启solr服务

solr stop –p 端口号关闭solr服务

solr create –c name 创建一个core实例(core概念后面介绍)

此外有关于solr集群版启动方式和其他更多的命令可以参看官方文档https://lucene.apache.org/solr/guide/7_4/solr-control-script-reference.html

三、创建core实例：

1. core简介：简单说core就是solr的一个实例，一个solr服务下可以有多个core，每个core下都有自己的索引库和与之相应的配置文件，所以在操作solr创建索引之前要创建一个core，因为索引都存在core下面。

2. core创建：core的创建方式有很多种一下列出两种比较方便的。

（1）在bin目录下执行solr create –c name，创建一个core，默认创建出来的位置如下图

（2）第二种方式是直接使用AdminUI页面创建一个core，如下图

四、配置schema

1. schema简介：

schema是用来告诉solr如何建立索引的，他的配置围绕着一个schema配置文件，这个配置文件决定着solr如何建立索引，每个字段的数据类型，分词方式等，老版本的schema配置文件的名字叫做schema.xml他的配置方式就是手工编辑，但是现在新版本的schema配置文件的名字叫做managed-schema，他的配置方式不再是用手工编辑而是使用schemaAPI来配置，官方给出的解释是使用schemaAPI修改managed-schema内容后不需要重新加载core或者重启solr更适合在生产环境下维护，如果使用手工编辑的方式更改配置不进行重加载core有可能会造成配置丢失，配置文件所在的路径如下图：

2. schema主要成员：

（1） fieldType：为field定义类型，最主要作用是定义分词器，分词器决定着如何从文档中检索关键字。

（2） analyzer：他是fieldType下的子元素，这就是传说中的分词器，他由一组tokenizer和filter组成，如下图所示

（3） field：他是创建索引用的字段，如果想要这个字段生成索引需要配置他的indexed属性为true，stored属性为true表示存储该索引。如下图所示每个field都要引用一种fieldType由type属性定义

这里描述的只是最常用的三个元素，关于更多schema的介绍请参考http://lucene.apache.org/solr/guide/7_4/documents-fields-and-schema-design.html

Schema API：

Schema API其实就是用post请求向solr服务器发送携带json参数的请求，所有操作内容都封装在json中，如果是linux系统直接使用curl工具，如果是windows系统推荐使用Postman

这里以添加一个field为例，下面列出其他API：

add-field: add a new field with parameters youprovide.

delete-field: delete a field.

replace-field: replace an existing field withone that is differently configured.

观看更多API内容请参考http://lucene.apache.org/solr/guide/7_4/schema-api.html

4.中文分词器：

solr自带了一些中文分词器，比较好用的是SmartChineseAnalyzer，但是扩展性比较差不能自定义扩展中文词库，所以这里选择使用IKAnalyzer，这是第三方的一个分词器可以很好的扩展中文词库，IKAnalyzer下载后解压会有如下文件

把核心jar文件复制到solr WEB应用的lib文件夹下，如下图

把配置文件和词库等文件复制到WEB应用的classes文件夹下，如果子WEB-INF下没有这个文件夹自己创建即可，如下图：

如果想要扩展词库可以在ext.dic文件中配置自定义的中文词组，例如：诛仙这个词组，这个分词器的算法是算不出来的但是通过我们自定义词库，分词器也可以把诛仙列出关键词。

上图是ext.dic文件中的内容，注意编辑此文件时字符编码最好是UTF-8无BOM模式，这个可以通过EditPlus等文本编辑工具设置。下面开始在Schema中应用分词器如下图：

定义了一个text_ik这个字段类型并采用Ik分词器，接下来在field元素定义式指定type=text_ik就可以把这个分词器应用在这个field中。

接下来我们来验证下ik分词器，如下图：

五、DIH导入索引数据

1. DIH简介：

DIH全称是Data Import Handler 数据导入处理器，顾名思义这是向solr中导入数据的，我们的solr目的就是为了能让我们的应用程序更快的查询出用户想要的数据，而数据存储在应用中的各种地方入xml、pdf、关系数据库中，那么solr首先就要能够获取这些数据并在这些数据中建立索引来达成快速搜索的目的，这里就列举我们最常用的从关系型数据库中向solr导入索引数据。

2. 在我们自己建立的core的目录下有conf目录，这里面有着几个很重要的配置文件，之前我们用到的managed-schema(老版本是schema.xml)也在其中，另外还有一个solrconfig.xml文件，这是我们DIH配置的第一步，需要在此文件中配置数据导入文件的映射位置如下图：