【DB吐槽大会】第7期 - PG slot 无failover

背景


1、产品的问题点

  • slot不支持failover

2、问题点背后涉及的技术原理

  • PG的逻辑日志解析功能需要slot来记录解析的WAL日志位点, 下次解析从位点继续. 除了记录位点, PG还需要依赖位点来保留未解析的WAL日志, 以及保留用于解析WAL日志的catalog版本(例如表结构信息). 但是SLOT不支持failover, 使用PG流复制构建的主从HA架构下一旦发生HA, 从库(切换成主库)是没有SLOT信息的.
  • 使用pg_upgrade进行大版本升级时,slot也会被清理.

3、这个问题将影响哪些行业以及业务场景

  • 使用PG流复制构建的主从HA架构, 并且有逻辑日志订阅需求的场景(例如跨实例共享某些表的数据、将数据库的增量日志同步到其他系统, 例如mq或者搜索引擎等. 使用了PG的pub,sub来进行实例之间的表级数据同步).

4、会导致什么问题?

  • 发生主从切换后, SLOT位点丢失, 需要重建SLOT, 存在丢失增量数据的风险. (例如老的主节点与切换到新的主库新建的slot位置之间存在WAL GAP.)
  • 大版本升级无法保留slot

5、业务上应该如何避免这个坑

  • 发生HA时, 立即在新的主库新建同名的slot, 但是wal gap导致的逻辑增量日志丢失无解.
  • 大版本升级属于计划内维护, 可以在升级前消费掉所有的wal日志, 并且在升级后立即创建slot. 保证没有wal gap导致的逻辑增量日志问题.

6、业务上避免这个坑牺牲了什么, 会引入什么新的问题

  • 增加了管理复杂度

7、数据库未来产品迭代如何修复这个坑

  • slot failover功能. (RDS PG 已修复, 期待PolarDB PG开源这个功能)
上一篇:【DB吐槽大会】第10期 - 不支持 flashback query


下一篇:【DB吐槽大会】第9期 - PG 大量连接写小事务性能差