看畅捷通如何利用阿里云快速定位异常,降低运维成本

更多存储标杆案例
欢迎点击下方链接查看

阿里云存储标杆案例样板间

公司介绍
畅捷通是用友旗下成员企业,为400多万小微企业提供智能云管理服务,公司于2010年3月成立,并与2014年6月在香港联交所主板挂牌上市。

畅捷通以“用创想与技术,推动小微企业经营与管理进步「为使命,以成为“全球领先的小微企业云服务、软件提供商」、「伙伴、员工快乐工作,成就事业,分享成功的平台」为愿景,致力于为中国小微企业提供以财务及管理服务为核心的:平台服务、应用服务、数据增值服务。

目前公司主营云产品包括畅捷通好会计、T+Cloud、畅捷通好生意、畅捷通易代账等,主营软件产品包括T系列软件。2019年度云服务企业注册用户数达到466万,累计付费企业用户数达到15.7万。软件业务累计企业用户数超过161万。

看畅捷通如何利用阿里云快速定位异常,降低运维成本

业务场景介绍
畅捷通IT运维开发部负责畅捷通包括好会计、好生意、易代账等所有云产品生产及测试系统的运维、上线发布等工作。该部门构建了一套MIDAS智能运维平台,提供了数据接入,数据处理和场景化分析的能力。

畅捷通智能运维平台的业务模型:

看畅捷通如何利用阿里云快速定位异常,降低运维成本

面临的痛点
畅捷通在智能运维平台开发初期,底层使用了自建的ELK进行运维数据分析,但是随着畅捷通业务的增长接入的应用系统增多,很快发现平台出现各种问题,各产品的稳定运行收到极大挑战,主要表现为如下几方面:

并发量大,优化ELK成本过高
几万个点同时并发发送数据,每天产生的各种日志与消息达到TB级。自建的ELK系统性能较差,优化性能需要耗费大量开发资源。类型杂,数据清洗难度大,访问类、系统类、应用类、通知、消息类等等,种类繁多、格式千奇百怪,为数据清洗增加了巨大的难度。

来源多,无法集中管理

网络、服务器、移动app、web、docker等各种来源的日志,接口繁多,并且要求实时性高,无法集中统一管理。

产品部门深度参与,重口难调
各产品部门也会对对收集来的数据都有着自己个性化的需求,监控报警、问题诊断、分析挖掘、报表等,消费模式也多种多样。

看畅捷通如何利用阿里云快速定位异常,降低运维成本

阿里云日志服务解决方案
畅捷通面对这些问题,选择使用阿里云日志服务作为基础来深度打造其智能运维平台,整个平台由如下三大模块构成:

高效消息采集和传输
利用阿里云日志服务的强大的数据接入能力,将畅捷通混合云架构中网络、服务器、移动端、容器的各类访问类、系统类、应用类、消息类等各类日志统一汇入日志平台,提供实现每日TB级数据的快速处理。

灵活的数据处理和存储
针对畅捷通内部已经具备完善CMDB和关联规则的情况,将原始日志进行语意切分和序列化后,对应到场景分析中。在策略组里找到相应的执行策略,再发到外部服务中,用外部服务去调用ansible或者消息转发等操作,实现对数据投递的集中管理,为后续众多场景化分析提供有力支撑。

智能异常检测和定位
过日志服务的时序数据分析与函数计算的能力,畅捷通构建了智能运维平台,通过直接使用阿里云服务的同环比函数,可以快速的得出监控指标的当前值,并且具有实时性。有了同环比后,报警的发送会变得准确,与原来的阈值相比准确性大大提高。
通过异常预测函数,可以从海量指标中快速定位异常,通过异常检测方法将有问题的地方显示出来,快速发现系统故障。
另外将各块汇集过来的数据进行标记后,能够与应用的配置信息进行关联和整合,通过时序可以发现故障的根因,从而可以实现故障预测。

上一篇:Java8 Stream性能如何及评测工具推荐


下一篇:微信小程序开发快速入手