分享人:Gauss Ye 安利(中国)SRE团队技术专家
正文:
本篇内容将通过三个部分来介绍ARMS3.0 助力安利搭建一体化运维监控平台。
一、Why:状况与挑战
二、How:转型之路
三、What:落地效果
一、Why:状况与挑战
作为安利核心的零售业务在字化时代的背景下,面临着很大的挑战。传统的零售行业场景单一,用户群体单一,缺乏灵活性。现在数字化趋势包括社交媒体,直播,私域流量以及自媒体。进入社交电商模式后,我们可以充分进入互联网的社交经济,充分利用多种数字化工具赋能企业,大大提升系统的容量,让新功能快速上线,还可以利用大数据,人工智能的能力帮助我们做好数字化运营。
安利的转型之路,充满坎坷和挑战。早期,我们购买了一个商业套件,部署在数据中心。希望可以帮助我们解决整个技术底座的问题。随着我们的业务增长以及用户的增长,这一套配置已经无法满足客户需求。当我们进行促销或者在高并发的秒杀场景下,系统经常会挂掉。
二、How:转型之路
经过咨询国内的头部互联网厂商之后,我们需要对技术底座进行升级。新一代的技术底座一定要满足三个方面。第一,新渠道。主要是互联网社交平台。第二,新容量,支持海量用户的上线。第三,新市场。我们希望成功之后,能快速部署到全球的其他地区。除此之外,我们还希望平台能够快速,稳定,灵活的支撑我们的业务。
所以基于以上思考,我们希望底座平台能够基于阿里云的计算服务,按需使用,弹性伸缩以及中间件的能力,实现全面上云,从单体应用走向微服务。让服务架构扩展更容易。同时,我们还要借鉴阿里在电商方面的最佳实践,满足我们业务在秒杀和一些高并发场景的需求。
微服务化带来常多的的好处,但是它也会把整个架构变的复杂。进行微服务之后,我们有30多个微服务,日常的生产环境超过200个容器,在促销的时候,可以到达3000个容器。服务和容器之间的调用关系变得相当的复杂。微服务化后服务的粒度细化,复杂度高,驾驭它们需要做到架构可感知、可见、可控。
三、What:落地效果
我们的开发人员主要以java为主。所以我们使用阿里的Spring Cloud。无缝地成到阿里云的相关服务,比如注册发现,管理配置和分布式调度等等。Spring Cloud Alibaba 可以提供微服务注册、熔断、限流降级等能力。
对于微服务的部署以及行环境,容器编排是不错的选择。所以我们选择了阿里的ACK作为我们的容器编排平台。我们不用再管理和维护K8S,同时可以减少人力成本,实现整个应用生命周期管理的标准化。
我们对于全栈全链路监控系统设计主要有三个要求,即高效,精准,全面。我们的全栈主要包含四部分,即阿里云产品,微服务应用,核心业务链路和我们的前端。基于这些需求我们的网络与接入层部署了dns,dcdn,eip,共享带宽等服务。在微服务方面,我们有ARMS监控,EDAS,AHAS限流熔断降级等能力。在存储方面,我们配备了ecs,oss,ack等功能。从而完成了全栈全链路监控系统设计。
传统定位方式的步骤非常麻烦,但是ARMS监控实现了白屏自动化。相关指标可以全部采集出来。比如历史数据,第三方系统的对接,CPU的内存信息等等。ARMS的根因定位实现了分钟级问题定位的能力。
阿里云的Prometheus不光可以开箱即用的而且无缝集成了阿里云的其他能力。它的性能调优,自动扩展也非常优秀。我们基于Prometheus和Grafana做了统一的监控大盘。包含业务的相关应用层、容器层、云服务等监控数据。实现一屏展示,洞察全局。