摘要:如今AIOps已经比较火热,然而整个行业仍都处于探索的初级阶段,针对预感未来的运维需求需要通过AI进行解决,如何将传统的IT架构改造成智能运维的架构更值得人们思考。本文主要对传统业务的变化、应用交付AD+人工智能AI、AIOps 故障发现与处理等方面的内容做了深入的分析。
本场视频精彩回顾,戳这里!
本场视频PPT下载,戳这里!
演讲嘉宾简介:
邱亮,深信服科技股份有限公司研发部总经理
以下内容根据演讲嘉宾视频分享以及PPT整理而成。
本次的分享主要围绕以下三个方面:
一、数据中心背景
二、负载均衡的应用
三、深信服与阿里合作
一、 数据中心背景
数据中心进行了三代的过程演化,第一代的数据中心以计算为中心,主要把客户原来传统的业务变为电子化业务,提高了办公效率和业务运营效率。第二代的数据中心以网络和应用为中心,随着客户越来越多的核心业务电子化进入数据中心,数据中心的业务成为客户生意的核心,当业务发生中断时,很多客户会出现无法办公、无法做生意的情况,直接给客户带来财产损失。客户对数据中心的需求表现为高可用、高可靠和高性能。第三代的数据中心以用户为中心,客户的很多业务从线下转换到线上。在这种情况下,客户对快速开发、业务弹性、未知业务产生诉求,云计算与大数据应运而生。
如图左下方为传统的数据中心,从网络层面看,分为核心层、汇聚层和接入层;从应用层面看,分为web层、app层和DB层。随着云计算的发展,很多资源已经池化,包括存储池化、网络池化和服务池化等,使得数据中心发生了很大的改变。
二、 负载均衡的应用
数据中心的改变不同于技术,过去的投资对客户来说属于历史资产,第一代的数据中心业务电子化后采用单态服务器即可承载,但是这样的架构存在一定缺陷,当单态服务器出现故障时,客户可能采用主备服务器的概念。正常情况下备服务器将处于被浪费状态。同时出现故障时主备服务器的切换也会花费大量时间,接入的连接将会全部中断。备服务器在平时没有业务接入,是否真正实际可用无法确定。在此情况下产生应用交付,负载均衡被架在前方,同时对几台服务器进行负载,既保证这几台服务器平时的可用性,也提升了整个业务系统的健壮性和性能。
随着越来越多的客户核心业务进入数据中心,当单个业务系统的出口出现问题时,例如移动、电信线路断开,链路不稳定使得整个业务系统无法访问,链路负载由此诞生。链路的负载均衡可帮助进行故障时的链路切换,并且保障联通的用户访问资源尽可能从联通的链路返回,避免跨运营商访问,减少时延提高性能。
由于越来越多的业务需要系统可靠性的保障,需要从底层到上层对系统实施很多高可用措施,从而避免任何一个点出现单点故障,例如在核心业务的存储方面,购买两对存储,存储相互之间作为镜像,从而保证一个存储故障时另一个存储可用,在网上接入的存储相关的交换机必须为两个,并相互之间进行堆叠。上层采用多台服务器,应用交付类的产品认为单点是不可靠的,需要支持双机或者集群。随着业务系统越来越多,数据中心管理变得复杂烦乱。
当大量的重要业务交给数据中心时,如果数据中心出现问题会变得非常危险,进而诞生全局负载,建设主备数据中心或者互为主备的数据中心,接着发展为两地三中心或者多户数据中心。面对流量如何在多个数据中心进行合理的调度,如何保证每个数据中心不会过载,当进入双户数据中心时,很多情况下并不是对等的双户,只对部分业务进行双户,使得一个数据中心的规模小于另一个数据中心,不能均匀地进行流量调度,此时会将应用交付应用到全局负载中。
如图为典型的抽象数据中心,从接入层中可以看到链路负载,以web区为例,web接受https并进行卸载,卸载需要SSR的安全网关,SSR安全网关需要负载保证自身的稳定,SSR安全网关本身就是负载产品的一项功能,接下来对网站进行WAF清洗,防止产生漏洞,同时WAF设备本身需要保证一定的健壮性,需要进行WAF负载。真实业务中的物理或虚拟服务器同样需要进行负载提高健壮性。图中红色框中都是应用交付产品即负载均衡产品,数据中心中的应用交付产品是天然的所有流量的入口,不管web访问流量还是内部业务系统之间的交互流量,都需要经过负载均衡,作为流量的探针应用交付产品可以抓取流量中的信息,同时作为控制器可以对流量进行个性化的编程,将流量编排的结果进行输出。深信服和阿里巴巴的合作就是基于以上基本原理。
三、 深信服与阿里合作
深信服从三个方面与阿里巴巴进行合作,第一层面为故障的发现与处理,即为常规的运维阶段。第二层为用户价值的挖掘。第三层为识别风险与阻断攻击。
在故障的发现与处理基本原理中,所有的流量首先经过负载均衡设备,接着发送到服务器,服务器可以把抓取的流量根据已编排的模型全部输出给阿里巴巴的云脑,常规下AI的云脑会将现有的模型输出数据发送给阿里,分担流量的压力,例如每秒新建的连接数、每秒新建的请求数、并发的连接数和吞吐量等,同时通过与阿里云平台的联动,可以获取服务器的CPU、内存、IO时延,从而分担服务器的压力。阿里巴巴的云脑可以获取整个业务的压力情况和业务的服务能力情况,并对数据进行智能分析产生业务指标基线,根据异常点发现问题。云脑的分析周期保证至少40天,其中包含一个月完整的周期数据和四个星期的横向对比,从而了解业务高峰等信息。当出现故障时,告警信息通知到阿里巴巴的云脑,云脑根据数据进行分析,得出故障严重性、服务器预测承担压力等信息供维护人员参考,从而采取合适应对措施。AIOps的应用提供预见未来风险的告警,而不是仅仅罗列大量的告警指标数据。
当建设双户或者多户的数据中心时,应用交付面对故障会尽可能将流量调用给其它数据中心。当建设云计算数据中心时,对于一家公司,所有业务同一时刻不可能都处于高峰期,有些业务处于波谷,出现故障的业务可能处于高峰期,此时数据中心会弹性地扩展更多的虚拟机,将业务流量分发给出现故障的业务,自动地进行恢复处理。
当服务器出现完全过载时,应用交付产品可以遏制流量的入口,限制并发的连接数,保证已接入的用户能够正常访问。
对用户价值的挖掘层面,如图以电商网站为例,通过可编程的方式建立模型、分析协议,通过接口将流量信息全部提取出来,包括用户的IP、账号、接入方式、页面的停留时间、整个url的访问列等。
提取的用户信息可用于提高客户的访问体验,例如根据客户端的时延、访问量提供系统的优化建议,根据客户端和运营商进行调度,对弱网的用户开启单边加速的功能,保证弱网的用户也能拥有较好的访问体验,降低用户的流失率,提高交易转换率。提取的用户信息也可以用于分析挖掘客户的行为,例如根据用户的喜好推荐商品、分析客户群体的行为习惯等,提高交易转换率。
当公司整个业务系统的承受压力很强时,认证服务器并不一定很强,此时会遭受黑客的攻击而瞬间瘫痪。应用交付通过访问、认证基线分析出不正常的行为,AI针对每个API访问做出相应的访问限制,进而有效地阻断攻击。
深信服与阿里云合作带来的价值表现为三个方面:故障的发现和处理、用户价值的挖掘和智能地识别风险、阻断攻击。
本文由云栖志愿小组丁匀泰整理,编辑百见