打个Tag就完成监控了?--使用监控的新姿势
关键词:
云监控,Tag,分组,应用分组,自动监控,redis监控,cloudmonitor-group,自动发现
背景
随着企业云资产越来越多,每天生产销毁变更的资源也不在少数,企业用户对这些资产的管控难度也越来越大,尤其是监控领域。每生产或者销毁一个实例,就要人肉为其配置管理相关监控报警,这需要非常大的人肉管控成本,直接block了用户使用云监控,从而给用户的可用性带来威胁。
随着的TAG的成熟,很多企业开始使用TAG来实现资源的分类、运维、财账等。基于TAG的运维监控,也是其中非常重要的一个场景。因此tag和云监控打通,将能够实现基于TAG的自动化监控,只要用户打上tag,就能够自动设置上相应的监控,是很多大用户非常期待的,这将有助于用户大大降低监控管理成本。
先满足,让用户资源能够被监控到这样一个最基本的诉求。
方案
云监控中有应用+应用分组的资源管理模型,可以实现跨region,跨产品的资源监控管理。同时,基于应用分组+监控模板,可以对一组资源快速实现监控覆盖,甚至是自动化监控。
然而,对于大用户来说,以头条为例,大几万的资源,对这些资源的分组也达到几千个,如果这些资源是通过人肉方式创建,几乎是不可想像的。好在一些用户已经通过tag,将这些资源作好了分组。我们需要做的是,将这些分组自动对应到云监控的应用分组,自动的带上监控。
综上,tag和云监控打通将给用户带来极大的便利。
详解
目前云监控和TAG服务集成,支持了两种通过TAG完成监控的方式,来满足不同用户的需求:
一,给资源打下固定的Tag键:cloudmonitor-group
这个tag键对应的所有值,都会自动创建一个云监控的应用分组,在分组中可以提供资源使用率的图表,以有分组维度的监控管理。
如上图所示,一共创建了两个TAG,一个Key:cloudmonitor-group value:为空,另一个key:cloudmonitor-group,value:test。
两个tag的value分别创建了一个监控的应用分组,创建分组时,默认使用的监控模板名为:‘’常用基础模板“,默认使用的报警联系人组为:”云账号报警联系人“。
分组创建完成后,用户可以根据需要,手动修改监控模板和报警联系人。
二,通过指定的TAG key来完成监控:
登录云监控控制台,在应用分组菜单中创建应用分组:
如图:可能通过指定的tag key来创建分组, 并支持过滤指定的tag值,如需要把tagkey=owner,tagvalue包含“开发”的所有tag值创建分组。
同样,默认使用的监控模板名为:'常用基础模板',默认使用的报警联系人组为:'云账号报警联系人'。
用户可以根据需要,手动修改监控模板和报警联系人。
另外,目前云监控也支持按实例的名称来实现对资源的自动发现,比如创建一个分组,将名称中包括'dev'的实例自动加入分组,
总结:
使用TAG和名称动态匹配的方式的好处是,创建一个分组后,以后创建的所有符合条件的实例,都会自动发现自动加入分组,自动被监控,从而大大降低监控配置的成本。
1. 目前Tag监控,只支持ecs(只支持实例,不支持网卡,磁盘等),rds,slb,redis四款产品,其他产品还需要再等待一段时间。
2. 目前一个分组里每个产品,最多只能支持3000个资源。超过3000个,不会加入分组中,顺序是随机。
3. 创建完分组,分组聚合的监控数据,需要等待5分钟左右的时间,才会看到分组级别的数据图表。
4. 创建完分组,具体的分组以及分组里的报警规则,会在后台异步创建,所以也会有几分钟的延迟。
5. 目前基于TAG创建分组都是通过订阅tag键的方式实现的,因此,后续这个tag键新创建的值,只要满足规则匹配条件,就会自动创建出一个分组。
6. 分组名称的规则是:TagKey-TagValue-1,用户可修改。
后续计划:
云监控的分组会继续和资源组,财务单元等企业管理方式打通,提供更多的监控视角和资源使用率视角。
同时,也会支持按分组进行授权,以帮助企业完成精细化管理的需求。