前言
在上一篇文章中为大家讲解了如何在Kubernetes集群中部署Prometheus,已经可以通过Prometheus监控Kubernetes中Pod的状态、核心组件的状态等数据。那么如何将应用自身的数据进行集成呢?
Prometheus数据格式解析
Prometheus是通过pull模式进行数据采集的,如果需要接入Prometheus的数据采集,需要符合Prometheus的数据格式,一个标准的Prometheus格式的监控数据格式如下:
# TYPE rpc_durations_seconds summary
rpc_durations_seconds{service="exponential",quantile="0.5"} 7.55823964126038e-07
rpc_durations_seconds{service="exponential",quantile="0.9"} 2.6110063096397233e-06
rpc_durations_seconds{service="exponential",quantile="0.99"} 4.1856147763703275e-06
rpc_durations_seconds_sum{service="exponential"} 0.00020646687333031658
rpc_durations_seconds_count{service="exponential"} 199
rpc_durations_seconds{service="normal",quantile="0.5"} -9.691909897213225e-07
rpc_durations_seconds{service="normal",quantile="0.9"} 0.00025830474325216625
rpc_durations_seconds{service="normal",quantile="0.99"} 0.0005562243742048893
rpc_durations_seconds_sum{service="normal"} -6.545190575669169e-05
rpc_durations_seconds_count{service="normal"} 134
rpc_durations_seconds{service="uniform",quantile="0.5"} 9.377796898048464e-05
rpc_durations_seconds{service="uniform",quantile="0.9"} 0.00018267981258729418
rpc_durations_seconds{service="uniform",quantile="0.99"} 0.0001955526954715437
rpc_durations_seconds_sum{service="uniform"} 0.009804051013554931
rpc_durations_seconds_count{service="uniform"} 101
表面上这个数据的格式是非常简单的,但实际上,如果我们手动去尝试拼接这样的数据格式,可能会由于特殊字符、命名方式、字符串长度等等不同原因导致Prometheus无法识别。此处我们建议直接使用Prometheus的Client进行注册监控接口。Promehtues的Client目前支持大部分编程语言,支持列表可以参考如下文章。下面我们以Go语言为例,来看下Prometheus Client的用法:
var (
// Create a summary to track fictional interservice RPC latencies for three
// distinct services with different latency distributions. These services are
// differentiated via a "service" label.
rpcDurations = prometheus.NewSummaryVec(
prometheus.SummaryOpts{
Name: "rpc_durations_seconds",
Help: "RPC latency distributions.",
Objectives: map[float64]float64{0.5: 0.05, 0.9: 0.01, 0.99: 0.001},
},
[]string{"service"},
)
)
func init() {
// Register the summary and the histogram with Prometheus's default registry.
prometheus.MustRegister(rpcDurations)
}
func main() {
flag.Parse()
start := time.Now()
oscillationFactor := func() float64 {
return 2 + math.Sin(math.Sin(2*math.Pi*float64(time.Since(start))/float64(*oscillationPeriod)))
}
// Periodically record some sample latencies for the three services.
go func() {
for {
v := rand.Float64() * *uniformDomain
rpcDurations.WithLabelValues("uniform").Observe(v)
time.Sleep(time.Duration(100*oscillationFactor()) * time.Millisecond)
}
}()
go func() {
for {
v := (rand.NormFloat64() * *normDomain) + *normMean
rpcDurations.WithLabelValues("normal").Observe(v)
time.Sleep(time.Duration(75*oscillationFactor()) * time.Millisecond)
}
}()
go func() {
for {
v := rand.ExpFloat64() / 1e6
rpcDurations.WithLabelValues("exponential").Observe(v)
time.Sleep(time.Duration(50*oscillationFactor()) * time.Millisecond)
}
}()
// Expose the registered metrics via HTTP.
http.Handle("/metrics", promhttp.Handler())
log.Fatal(http.ListenAndServe(*addr, nil))
}
在本例子中,我们注册了一个名叫rpc_durations_seconds
的指标,首先需要prometheus.MustRegister
注册一个监控指标,在本例中rpc_durations_seconds
是prometheus.NewSummaryVec
类型的,其他类型可以参考官方文档。rpcDurations
是一个全局的单例,可以在期望更新监控数据的时候可以调用rpcDurations.WithLabelValues("uniform").Observe(v)
来增加监控数据即可。代码模板可以参考如下仓库
集成Promehtues系统进行应用监控
1.我们将上文中打包好的应用镜像,并下发Deployment与Service到集群中。
apiVersion: apps/v1beta1
kind: Deployment
metadata:
name: demo-app
labels:
app: demo-app
spec:
replicas: 2
selector:
matchLabels:
app: demo-app
template:
metadata:
labels:
app: demo-app
spec:
containers:
- name: demo-app
image: registry.cn-hangzhou.aliyuncs.com/ringtail/prometheus-demo:v1
command:
- /random
ports:
- containerPort: 8080
---
apiVersion: v1
kind: Service
metadata:
labels:
app: demo-app
name: demo-app
namespace: default
spec:
ports:
- name: http-metrics
port: 8080
protocol: TCP
targetPort: 8080
selector:
app: demo-app
type: ClusterIP
2.部署当前应用的serviceMonitor到集群
apiVersion: monitoring.coreos.com/v1
kind: ServiceMonitor
metadata:
labels:
app: demo-app
name: demo-app
namespace: monitoring
spec:
endpoints:
- interval: 30s
port: http-metrics
jobLabel: app
namespaceSelector:
matchNames:
- default
selector:
matchLabels:
app: demo-app
此处需要特别做些解释,serviceMonitor是Prometheus Operator中抽象的概念,他的作用就是讲配置Prometheus采集Target的配置变化成为动态发现的方式,可以serviceMonitor通过Deployment对应的Service配置进行挂钩,通过label selector选择Service,并自动发现后端容器。其中需要注意的是namespace字段永远为monitoring,而namespaceSelector中则是选择的应用所在的namespace。
3.访问Prometheus,验证数据采集,打开Status下的Service Discovery,active的数目等于Pod数据即表示采集正常。
# 本地Proxy到Prometheus
kubectl --namespace monitoring port-forward svc/prometheus-k8s 9090
打开Graph页面,选择我们刚才推送的数据指标名称,点击Execute
,即可查看到采集上来的数据。
4.配置Grafana页面,点击New Dashboard
,创建新的Dashboard,展现监控数据
# 本地Proxy到Grafana
kubectl --namespace monitoring port-forward svc/grafana 3000
在本例子中,我们配置了计算rpc_durations_seconds
和值的语法,在Prometheus中还有非常多复杂的聚合方式,建议大家参考已有的一些Dashboard或者翻阅PromSQL的文档。
最后
使用Prometheus接入应用监控的方式非常简单,整个操作的流程非常kubernetes,这也是目前非常多的开源软件和Kubernetes集成的一种方式与趋势,在开发者习惯了之后,会越来越感受到这种方式的便利。更多的operator可以参考这个repo