可观测告警运维系统调研——SLS告警与多款方案对比

前言

本篇是SLS新版告警系列宣传与培训的第三篇,后续我们会推出20+系列直播与实战培训视频,敬请关注。


系列目录(持续更新)


1. 什么是SLS告警运维系统

1.1. SLS(日志服务)是什么

SLS是阿里云上云原生观测分析平台,为Log/Metric/Trace等数据提供大规模、低成本、实时平台化服务。目前对内已经是“阿里巴巴 + 蚂蚁金服”系统的数据总线,数年稳定支撑双十一、双十二、新春红包活动。对外则已经服务阿里云几十万企业客户。

可观测告警运维系统调研——SLS告警与多款方案对比


1.2. SLS新版告警——一站式智能告警运维系统

SLS新版告警在中国站等发布公测(国际站预计4月发布),新版在SLS云原生可观测性平台上提供了一站式智能运维告警系统。新版告警提供对日志、时序等各类数据的告警监控,亦可接受三方告警,对告警进行降噪、事件管理、通知管理等,新增40+功能场景,充分考虑研发、运维、安全以及运营人员的告警监控运维需求。

可观测告警运维系统调研——SLS告警与多款方案对比



1.3. 优势

使用SLS新版告警,可以有效缓解典型告警运维系统的痛点,和其他自建、商业化或云厂商提供的方案比,具备如下5大优势:

可观测告警运维系统调研——SLS告警与多款方案对比


2. 与自建方案对比

2.1. 与ELK X-Pack 告警 (Watcher/KibanaAlert)对比

2.1.1. 简介

自建方案ELK表示使用开源方案ElasticSearch + Logstash + Kibana组合,但是其不包括告警功能,需要额外购买X-Pack商业包,会拥有2个告警功能,一个是ElasticSearch附带的Watcher,一个是Kibana 7.x+新增的Alert功能,注意:这两个告警功能互相独立,并不能协同和关联。


2.1.2. 评估对比

可观测告警运维系统调研——SLS告警与多款方案对比

2.2. 与Prometheus  & Loki(含AlertManager)告警对比

2.2.1. 简介

自建方案Prometheus&Loki表示使用开源方案Prometheus + Loki + AlertManager组合,其中Prometheus Alert针对时序进行告警监控,Loki针对日志进行告警监控,两者共同将告警发送给Alert Manager进行告警管理


2.2.2. 评估对比

可观测告警运维系统调研——SLS告警与多款方案对比


2.3. 与InfluxDB 2.0 告警(含Kapacitor) 告警对比

2.3.1. 简介

自建方案InfluxDB表示使用开源方案InfluxDB OSS 2.0 + kapacitor组合搭建告警监控系统,如果需要集群部署功能,还需要购买InfluxDB商业版本。注意,该方案只能支持针对时序数据的告警监控。


2.3.2. 评估对比

可观测告警运维系统调研——SLS告警与多款方案对比


3. 与其他云厂商方案对比

3.1. 与AWSCloudWatch 告警 +SNS+SSM对比

3.1.1. 简介

AWS告警监控方案,需要依赖AWS CloudWatch告警加上多个其他AWS服务达到告警监控和管理的能力。一般使用CloudWatch Alarm + SNS + System Manager OpsCenter组合的方式完成对日志、时序的监控管理。CloudWatch Logs支持日志的采集,但实际监控告警时,需要先转换成时序才行。


3.1.2. 评估对比

可观测告警运维系统调研——SLS告警与多款方案对比

3.2. 与AzureMonitor 告警对比

3.2.1. 简介

Azure Monitor支持完整的基于时序与日志的监控,并很好集成了上下游方案提供完整的告警监控与告警管理通知功能。


3.2.2. 评估对比

可观测告警运维系统调研——SLS告警与多款方案对比


4. 进一步参考

4.1. 各方参考


  • ELK:


  • Prometheus & Lock:


  • InfluxDB:


  • AWS:


  • Azure:


4.1. SLS相关

可观测告警运维系统调研——SLS告警与多款方案对比

  • 后续系列直播与培训视频会同步到B站,敬请留意

可观测告警运维系统调研——SLS告警与多款方案对比

上一篇:运维调试记录:Win7中文件或目录损坏且无法读取


下一篇:Java8 快速实现List转map 、分组、过滤等操作