「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

DataFlux是上海驻云自研发的一套大数据统一分析平台,可以通过对任何来源、类型、规模的实时数据进行监控、分析和处理,释放数据价值。

DataFlux产品有一个功能点——关键事件,功能很强大,但是用户在实际使用的过程中对于其掌握不是很好。为此,专门以一篇文章的内容介绍下为什么设计这个关键事件功能以及关键事件的实际使用的一些举例。
「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

DataFlux作为一个从各个机器,软件,系统,硬件中可以获取实时数据的平台,能够很好的帮助客户去计算,分析实时的各种数据,但是我们往往忽略了数据指标的变化可能是有原因的,而这些原因可能会因为信息不对称或者实际使用者的认知差异,使得我们在得出结论的时候忽略了关键事件,不管这个关键事件是内部的还是外部的。

举个例子来说,当一个运维工程师发现系统出现异常,如数据库出现了异常的IOPS,往往需要花非常多得时间去找到原因,但实际上的原因可能是开发工程师刚刚发布更新了一个错误的代码。所以当这个关键事件不被掌握的时候,信息的不对称使得我们会停留在自己所能看到的部分。一般情况下,IT系统在稳定运行过程中,没有一个外部的改变,通常是不会有问题的,90%的故障都是变更引起。
「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

而传统ITIL为了解决这个问题的办法是通过流程管理控制,如引入一个概念叫做变更管理,但是这种行为对于执行者的要求非常高,并且实际上往往大部分企业无法做到有效的记录,使得这个例子导致的系统恢复时间非常长。那DataFlux的关键事件功能怎么解决这个问题呢?

很简单,只要同时收入代码Commit,或者代码集成发布Pipeline,甚至是容器镜像更新的行为,把这些事件作为关键事件,我们就能过从时间发生的先后顺序来快速定位这些关键事件,信息不对称解决了,一个运维工程师就能瞬间发现是某个程序员的代码导致了这次故障,就可以迅速联系解决。
「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

DataFlux关键事件和变更管理最大的区别是,当我们将关键事件集成后,实际上记录的每个行为本身就会会自动形成这些关键事件,运维工程师可以快速的将指标异常的故障和这些关键事件以时间维度关联起来,迅速找到导致异常的原因。很多时候异常告警往往并不是最关键的,最关键的是发现导致异常的原因,很多传统的运维理念只是停留在发现异常,而没有上升到定位异常的原因,这就是这个关键事件功能在IT监控领域的价值。

实际上在不同的商业场景中我们会发现关键事件往往影响着很多事情,而很多商业领域的关键事件甚至要跟外部事件联系起来,比如你的店铺流量突增,可能是因为微博上你的产品关键字上了热搜;记录淘宝广告位的变化,可以让你发现淘宝是不是有效的投放了广告;某个岗位的人员变更,对于后期业务的影响等等。如果我们把可能影响我们业务的内外部关键事件都收集起来,那么就能更快的为这些事件做出反应,我们也许就能发现那些关键的“蝴蝶”,了解蝴蝶效应是如何发生的。

「DataFlux」关键事件,助你掌控IT监控的“蝴蝶效应”

为了方便大家使用这个功能,关键事件本身也支持关联外部URL,以及增加详细描述,方便我们可以完善对整个关键事件的描述,让最终使用数据的各种岗位的人可以更全面的了解这些事件本身。详细关于关键事件的使用请参考DataFlux的帮助。

地址:
https://help.dataflux.cn/doc/50c55e9eb14fa5ec02b2f268f56019299834e5ae

上一篇:使用 DataFlux 完成 Kubernetes 监控指标采集与展示


下一篇:初识SpringCloud(2)集群/分布式/微服务/SOA的相关概念