Solr术语介绍:SolrCloud,单机Solr,Collection,Shard,Replica,Core之间的关系

2022-12-10 12:09:23

Solr有一堆让人发晕的术语如:collections,shards,replicas,cores,config sets.

在了解这些术语之前需要先做做如下功课：

Solr术语介绍：

Collections:SolrCloud集群中的一个完整的逻辑上的倒排索引(什么是倒排索引?)，和一个独立的config set相关联，由一个或者多个shard组成，shard可以在不同的服务器上，shard对搜索接口的调用者来说是隐形的，搜索者不用考虑在搜索时如何指定shard，只需要传入Collection名即可。

Config Set:包含两个最根本的配置文件:solrconfig.xml和schema.xml，视这两个文件的内容而定是否需要包含其他文件。SolrCloud的config set目录会上传到zookeeper中，而传统单机Solr的config set是保存在本地文件夹中。

Core:一个Solr Core是一个包含索引和配置文件的运行实例，以前Solr Core是单例模式的，后来重构成了多实例的，(什么是SolrCores?)。一个Replica对应一个Core实例，同一个Shard对应的Replica的Core的配置和索引数据是一样的，但是是不同实例。

Replica:Shard的一个副本。一个Shard会在不同的服务器上保留Repicas(副本)，通过选举机制(和zookeeper的leader选举机制类似)在Replicas(副本)中选出一个leader来对外提供服务。leader连不上了就重新选其他副本作为leader，这样能保证至多(副本数-1)台服务器挂掉后仍然能正常工作。

Shard:Collection的一个逻辑分片。每个Shard对应一个Core，并且包含一个索引(Collection)的文档(Documents)的不相交子集，一个Shard由至少一个Replica组成，当有多个Replicas时，选举机制选出作为leader的Replica。单机Solr中，Shard指的是Solr cores.

Zookeeper:分布式集群的基本组件，MapReduce、HDFS、Hive等分布式系统都基于它，Leader选举也要靠它。Solr有自己的内嵌Zookeeper，但是一般不会用内嵌的。部署Zookeeper至少需要3台主机(出于节约成本，可以和Solr实例部署在相同的服务器上，目前很多Solr users都是这么用的)。

附

各个术语之间对应关系图

(作者:卡尔 http://www.cnblogs.com/arli)

码农公寓

相关文章