前边我们基本了解了dremio 的组件构成,一下是关于ha 的一个说明
dremio 的ha 使用了一个活动的master coordinator 以及多个备份的coordinator
包含的特点
- ha 支持自动恢复操作
- ha 模式使用了冷备模式
- 协调器的选举是通过zk 完成的
- 元数据存储(kvstore) 不是分布式的,挂载的文件系统必须master coordinator 可见
- 基于共享文件系统可以用来确保可见,但是必须支持锁模式
ha 故障转移工作原理
- 当发现失败的时候,会依赖zk 进行新节点的选择
- 成为master 的节点会使用挂载的网络驱动器的元数据存储
- 其他集群节点连接新的协调器节点
一些说明
对于集群状态,我们可以通过提供的rest 接口查看(或者ui)GET /apiv2/server_status
,同时一些配置
zk 参考数据存储
参考资料
https://docs.dremio.com/advanced-administration/high-availability.html
https://docs.dremio.com/rest-api/get-server_status.html