背景
1、产品的问题点
- PG pg_stat_statements缺乏p99, p95的指标
2、问题点背后涉及的技术原理
- pg_stat_statements 是PG提供的用来收集数据库SQL统计信息的插件, 例如SQL的调用次数, 平均RT, IO时间 等等.
- P99, P95指标指解释, 例如某条SQL99%的请求RT低于1毫米, 95%的地狱0.8毫秒. 可以说明SQL的请求响应速度(RT)稳定性.
- 监控PG语句的执行稳定性, 作为业务指标参考.
3、这个问题将影响哪些行业以及业务场景
- 通用, 特别是高并发小事务, 例如KV查询的, 对单次RT有严苛要求的场景.
4、会导致什么问题?
- 只有RT平均时间、方差, 无法掌握数据库RT的稳定性边界, 比较难和业务达成benchmark的目标.
5、业务上应该如何避免这个坑
- 可以使用stddev 来评估抖动, 但是不精确.
6、业务上避免这个坑牺牲了什么, 会引入什么新的问题
- 基本无解
7、数据库未来产品迭代如何修复这个坑
- 希望PG pg_stat_statements 支持RT等 p99, p95的指标