数据中心是IT和互联网的核心基础,数据中心的运营质量和效率直接关系到许多*部门和企业的核心竞争力,如何建好、管好数据中心,成为一个永恒的话题。在这方面,中国银行总行数据中心副总经理杨志国先生做了大量深入的探索,今天我们很高兴请到了杨总,他将为我们带来《数据中心运维管理体系的数字化转型》,掌声欢迎!
中国银行总行数据中心副总裁杨志国
各位尊敬的领导、各位尊敬的朋友,上午好!可能也有新老朋友,我记得去年受范总的邀请,去年在北京讲了一门课。今天正好来的人特别多,我刚才看了一下名单,大部分都是一些企业、当地*的,我一看以后唯一一家我是银行界的,包括保险、证券、银行的都没有。我今天刚刚下飞机赶过来,差点赶不过来,所以今天没有来得及换行头,IT人都是这样的一个情况。IT人比较*、奔放、创新、开拓,是这么一种精神,所以我今天穿了T恤衫来跟大家讲讲我的一些体会。
特别是我们的范总,把CIO大会做得越来越多,参与的人越来越多,我认为这是一个好事,创新就要这样,发展也要这样,这是有意义的,我们要为此点赞。这个课件比较长,这是我去香港亚太峰会的时候,我给整个亚太地区做的一个分享。大家都讲到数据中心,包括联想、戴尔两位也是老朋友了,因为戴尔、联想一系列的产品在我们中国银行有很多使用价值,使我们得到很大的发展。
现在我们国家的数据中心风起云涌,各个数据中心都起来了。其实2017年底数据中心已经达到43万个,数据中心怎么运维、怎么安全可靠的运维,我在IT方面干了35年,积累了很多经验,给大家分享一下。大家知道,数据中心也有大与小的问题,我那天跟这些大型银行的IT大佬交流的时候,问他们的交易是多少,他们说每天交易量超过6亿笔左右。我们中国银行有多少呢?我们已经有8亿笔交易量,是超大的数据类型。这个交易量大的都在中国,比如说工行、建行等交易量是非常大的。现在各种经济活动比较频繁,我们还有各种股份制银行、商业银行等等,这些银行的数据中心的规模都是超大型的。所以我定了一个量,比如说招商银行的账户数达到16个亿,这是一个很大的海量的数据。
作为传统银行来讲是比较保守的,随着移动互联、大数据、互联网、云计算、物联网开拓出来以后,对于我们传统银行也是一个挑战,我们怎么进行发展。昨天同信在广州召开了大会,马化腾提出了要三张网,三网合一以后,我认为非常有道理,发展非常快。我看了一下今天在座的很多都是CIO、都是信息执行官,你怎么保证你的数据中心好好的活下来,并且活得很好。
怎么活得更好,我总结了18字方针,第一是安全、稳定、可靠是数据中心的基础条件,快速、有序、有效,出了问题以后怎么能在10分钟内解决,这是很关键的,它是有序、有效的。同时客户体验是很好的,不停机的,所以效率是高的,如果你的交易时长是300毫秒,别人的是100毫秒,肯定认为你的效率不好,效益也不好。这是18字方针,安全、稳定、可靠、快速、有序、有效、体验、效率、效益。
接下来我们讲数据怎么管理的问题,我们在探讨的时候,比如说这么多书,你怎么理解这些书?第一是制度管人,大家知道制度是死的、人是活的,往往我们制定了很多制度,他不按照制度去做,特别涉及到系统维护必须按规矩做的,这是有制度的。但是我们做一次变更,他不按时间做了,他违规了,肯定会造成后台的影响。我们是流程分责,流程都是相通的,不相通是管理不好的。第三是角色定位,我们现在进行角色定位,这个角色就干这个活。同时我们按标准做事,比如说我们在中国银行,我们有很多标准,把我们的监控标准也做起来,应急管理也做起来,有1800个,按照标准做事,加上我们的智能化工具去实现,所以形成了数据中心的一套管理理念。你把这18个字加上这5句话就能管好了,大家要记住这个诀窍。
这18个字和5句话是怎么来的,我们数据中心有这么多运维场景,这是必须要做的。我们的智能化也好、大数据也好,数据中心的基础运维必须要一步一步做。要分五个阶段做,第一个阶段是标准化、第二个阶段是流程化、第三个阶段是平台化、第四个阶段是自动化、第五个阶段是数字智能化运维,银行必须要按照这五个阶段做,没有标准化、流程化不能跳到自动化。有很多设备要维护,这是实体的场景,有很多终端要维护,有很多机房设备要维护,有很多网络性能要维护。这个维护我们说有很多模式,怎么做?如果你是一个数据中心、一个CIO管理者,他有很多服务模式要去完成,这个模式完成以后是保证你所有的是一体化的。没有任何一个单位是离开IT去独立运行的,现在所有都是无纸化,全都是网络运行的。
我们举个例子,服务请求是快速完成的,同时我们有一些日常的机房巡检,你是怎么做的,这些都有一些标准和要求,不管是监控、还是巡检、还是海外处理、还是国内处理等等,都有一些要求需要做。比如说监控,监控以后,我统计了一下,监控组件大概有35万多个,你怎么做到自动化。我们还有运行操作,大家知道银行每年都有审计报告出来,同时我们还有大量的生产活动变更,这个生产活动变更以后有很多种模式,我们中国的银行的变更情况有这么多,达到99.86%,这是很高的,国际惯例一般达到99%就不错了,我们中国的银行在这方面是做得很不错的。
大家知道银行是干什么的,像我们的工行、建行、农行,特别是中国银行,全球有30多个国家有中国银行的代理,必须要连到我们这边来,我们是一体化的管理系统,国内的分行也连到这里来。所以大量的日常管理工作是必须要做的,做不好所有系统都不能对外服务。大家想一想,无论是手机银行、还是网上银行、不管是AMT、还是手机支付,现在所有支付企业要进入到网联,以前都是要连到银行,不管是微信还是支付宝都要连到银行去,这是国家规定的。
我们做了一些日常处理,怎么处理呢?我们有这个图,这个自动化率有多高,我们要把自动化做好。比如说防病毒处理,这是我们的一个灾害,包括这次爆发的永恒之蓝,这些病毒要堵在银行的网络外,不能进入到我们的系统里面来,这是病毒。还有信息安全事件,特别是中国的经济发展非常快,现在黑客攻击的事件在全球中国排第二、美国排第一、南韩排第三,都是在攻击这些国家。如果我们没有很好的技术手段,很难对数据安全可靠的正常运维的。
这是异地灾备,异地数据中心都在做灾备。我老杨是反对搞存储异地数据中心和异地灾备中心的,为什么?投入太大,其他国家很少这样做,这是我们的中国特色,实际上我们的投入很大。灾难发生以后,我们要有多核中心进行备份,向多核中心发展,我们可以搞两个控制中心、五个物理中心。我这次去瑞士看了他的数据中心,是非常不错的。这是灾备。
我刚才讲的是我们现在银行在现在要做的一些工作,同时我们怎么做好上面运维的东西,在人方面我们就要思考了。我举个例子,我们的IT组件是35万个,如果每个人监控1个IT组件必须大概要35万人监控,这是不可能的。我们怎么实现智能化呢?数据中心怎么运维?估计在座的CIO也能看得懂,我们是要打造智能化监控管理平台,打造自动化配置管理平台。为什么?我举个例子,我们的智能化管理平台,按照以前打补丁系统升级,我大概是每个地方、每个省行都要派100人去升级,现在我通过一个软件只要一个小时全球35万个终端全部升级完,这就是自动化操作平台带来的一个好处。
打造了自动化平台以后,确实带来了一个运维的可靠性,我是怎么实现的呢?比如说我们通过控制软件,把我们底层的数据采集进行分级,知道我们的问题在哪个地方,这样可以保证自动化运维。我们全部都是自动化的,所有流程都是自动化的,而且全部都是流程化的。比如说把一个事件采集过来之后怎么进行分析,怎么进行定位,定位完之后怎么解决都有一套管理流程出来,这就是自动化管理平台。大家知道,没有自动化管理平台,大数据运维寸步难行。现在我们国家的数据中心一般还是靠人运维的比较多,靠自动化运维的还是比较少,这是我讲的一个实例。
我们要怎么管,数据中心要管起来有很多角色定位。我们有很多角色以后,才能把这个事件处理好,这些角色全都要靠我们的自动化管理流程把它串起来,形成一个有力的整体,把事件在可控的时间内进行处理。比如说日常的工作,我是怎么对服务请求进行处理的、怎么分配的,全都是自动管理流程。这套流程我认为适用于所有的数据中心的运维工作,怎么做我不太细讲,因为只有30分钟时间,本来这个PPT可以讲一个半小时左右,以后有机会我们再探讨。
这是我们的监控显示图,包括我们的基本性能、事件监控等,全都在一个图中展示出来,所有的情况都比较清楚。假如说我们有一个红色告警是怎么来的,告诉大家。我们进入高峰期以后,我们怎么创建告警清单都已经告诉大家了。这个我稍微走得快一点,因为后面有重要的部分要讲。这是交易量的情况图。处理完了,形成自动化,大家都知道这是自动创建、自动处理。我去美国的时候数据中心有一个报警,大概有30万平方米的数据中心,大概有100多家银行租赁他们的数据中心,高度的自动化。这是我们怎么处理一些具体的事件。
我们第一步是组件监控模式,第二步是流程运维模式,第三步是平台化运维模式,第四步是6智能数字化的模式,我们可以分成四步走。现在我们国家的数据中心大多停留在运维2.0,可能有一些组件监控、有一些半自动流程打通,但是到了3.0平台化是还没有的,都是靠人,我记得我当时做的时候都是靠人去做,现在我们都是自动化。我们怎么达到自动化运维4.0,我们有一些探讨和分析。
大家知道,现在我们传统的运维是存在很多问题的,特别是我们的规模大、各种根据不同意,不知道今天有没有做流程根据的人,我知道戴尔也做这些流程建设。混合架构特别是银行架构太多,非常复杂,有了手机银行以后,都跟我们后台的系统连接关系,手机银行有很多关系,有很多海量的节点,跨平台的比较多。我们的很多工具不统一,五花八门,有国产的、进口的、自己开发的。
我们有哪些痛点呢?第一个是多运维场景的挑战,同时所有场景得不到有效分析和定位,自动化操作也不是很高,还有一些典型的场景不太友好,不能快速迭代投产。现在银行投产一个项目要半年时间,现在半年时间根本不行,互联网公司的项目投产一般是10天左右就有一个项目出来了,银行比较安全稳定,怎么样快速的迭代投产也不行。同时人的效率比较低,突发性事件处理能力比较差。比如说“双11”,把我们的银行系统撑爆了。今天同信好像来人了,我对马云同志又爱又狠,爱他是对我们国家的科技创新做得很不错,值得表扬。但是给我们银行又带来了挑战,“双11”5秒钟时间交易量增加了10倍,假如说网上银行交易量一天达到10个亿,我要有大量资源支撑10亿交易量的并发。我们银行是核心系统处理的,大家知道是一条路,处理模式不一样,银行是一本账,我们银行要有零故障出现。
这些大量的事情发生之后,我们怎么做好运维?我经过摸索得出了“老杨级”的理论。我们要做到可知、可控、可信KCT,不管是科研也好、还是快速迭代要投产也好等全都控制起来,做到智能一体化。我比较了一下,怎么对应交付、观测、干预、安全做运维呢?大家看一下我怎么把这些问题解决好。观测我观测什么东西,安全是做什么东西,我们现在大量的靠人判断肯定是不行的,我能不能通过机器学习来分析故障点在哪些地方,这是我们银行解决运维的关键点。
大家知道,所有的交易是有一定规则的,规则破坏以后,我们通过机器学习判断问题所在,解决我们运维的痛点,快速定位、快速处理。并且我们现在叫智能运维,还可以用软件解决运维的问题,不需要人工干预。美国的数据中心智能运维达到65%,发现100个问题有65个问题通过智能运维解决。这是我们得出的一个观点,传统平台是怎么做的,我们的智能运维场景是怎么样的,我不太细讲,因为时间有限。
这个模型怎么去做,交付、观测、干预、安全有哪些东西实现它,这是我们的开始的简单建模。建了模型之后,我们就要打造数据中心智能化运维的体系建设。刚才大家可以看到我们有四台一库,现在有七台两库,我们怎么做运维的,这个逻辑我们根据国外的一些知名公司打造智能化的运维体系建设。大家知道,我们的调度平台已经有了,数据分析平台、智能监控平台、运维管理平台、安全管理平台等等,灾备达到秒级切换。这是我们的智能运维平台,云智能数字运维平台。这里每个地方我不太细讲,比如说工具的实现怎么做这里讲了。
这是云化平台怎么架构,刚才联想的云架构也有了,我们数据中心的云架构怎么做,运维平台怎么进行架构,这里不细讲了。我们在数据分析、数据采集,现在我们不叫IT组件采集,因为IT组件采集肯定不能做智能分析。这里我有一个统计。这是我们数据分析平台的模型,我认为这是很不错的,这个模型我们进行了实践,这个人是在美国待了很多年的资深工程师,他做的模型我认为非常有道理,我们正在实践。它是把所有的日志拿过来进行机器学习以后,判断你所有的问题所在,非常漂亮。确实他的脑袋非常好,这个机器学习模型是他设计出来的处理器。我们在座的同志,这个你们可以研究出来。今天在座的有很多厂商,这个研究出来之后,是不是解决我们的数据化关键所在。现在我们在座的厂商,你们可以去研究这个东西。
我们的大数据平台怎么做的呢,我们采集的数据要怎么去进行分析。最关键的核心,做数据运维没有一个CMDB信息库是不行的,我们建了一个CMDB信息库是非常关键的核心组件。这是我们信息库采集的实例,这是模型图,数据中心所有配置项都在里面有所体现,得出所有信息出来进行集合。我们的监控平台大概怎么做,这是一个实践场景图,比如说交易量达到多少、交易时间多少等等全部都实时分析出来,这样我们就可以掌握到,不用人去干预,所有情况都一目了然,具体情况都能知道。
我们做完了以后,我们应该有一个很好的业务可视图。大家都知道,银行所有系统都是有关联关系的,业务可视图是判断问题的一个很好的方式。我们是以服务客户为宗旨的。我们有运维管理协同平台,打通了所有的流程平台。同时我们还有一些运维的辅助工具,现在工程师不用在数据中心了,可以在云维护、可以在异地维护,大量的通过线上方式进行维护。现在所有的技术方案的审核、大量的性能分析,我都看得见,因为我们都有APP可以下载到手机上来进行远程处理。所以一个数据中心达到这样的情况以后,它就是高度智能化的东西。
当然了,我们的实施路径也有一些方式方法。这是我们有一家银行,我也不好说,今天我们在座的一家公司已经帮他做了云平台的智能架构。这是我们一家银行的云化平台的运维架构方案,我认为也做得很不错。大家知道AWS,这是我们国外的公司的智能化运维架构。大家可以拍下来,这是比较有借鉴意义的,大家去读一下。这是我们国内互联网公司的,不知道能不能看得出来,他们的智能化运维架构,BAT智能化运维还是不一样的,他们的架构也是跟我们不一样的东西。这是我们传统的,今天在座的华云公司的老总在,谁搞认知,就是传统IT公司,他们也是做得不错的,大家也可以学习。
我主要是探讨了智能数字化运维转型的问题,我们怎么转型。实际上有一个运营管理体系,我们要创造效益的时候,必须要把数据中心的管理做好,包括数据管理、人力管理等等,它有几个大的体系去做。做了之后是坚持安全生产为第一要务,打造数据中心特别是战略化运营管理体系。不知道今天讲完课以后,大家有没有启发,如果有启发大家拍个手掌。谢谢大家!
原文发布时间为:2018-05-24