2018云栖大会南京峰会,阿里巴巴技术专家乔斌带来云效助力新零售运维效能提升之路的演讲。首先,由父女逛无人超市的案例引申出零售下的缩影。其次,讲述了新零售面临的巨大挑战以及怎样快速从故障中恢复。再次,对基础设施链路故障与应用链路故障进行了深刻的分析并提出了解决路径。最后,将解决方案实施前和实施后进行了对比发现发布效率、常规运维效率、故障下降率都得到了提高。
数十款阿里云产品限时折扣中,赶快点击这里,领券开始云上实践吧!
直播视频请点击
以下为精彩视频内容整理:
零售下的缩影
新零售的新是新在它是数字化的过程。首先举一个小小的案例:在国外,有一对父女走进了一家无人超市,其中女儿年仅16岁,超市推荐给两父女孕妇用的产品,父亲很是生气,便打电话给无人超市的供应商并将其骂了一顿。超市是根据大数据的比对进行推荐的,它将女孩之前的饮食习惯与之后的饮食习惯进行了对比,发现了差异,就认为女孩可能怀孕了。过了几天,父亲发现女儿真的怀孕了便立刻给超市的供应商打电话道歉。
新零售后应用由新零售前的1倍增加到新零售后的2.5倍。新零售后应用多了使得交互关系变复杂了,从而使得故障也变多了。而新零售前仅需要一个库存系统,一个会员系统,一个财务系统发布上去便可以应用了。
新零售企业以及传统企业在转型过程中会有数字化程度变高、故障激增、故障影响扩大、工作量激增等基础构架的问题。
案例情景在现
某商场的停车场的访问系统出现了故障,进来的车辆无法有序的出行,解决的方案是保安进来登记,进行手工收费,然而有些人没有带现金,便用支付宝找身边的人换取现金。停车场出现故障的原因是网络流量使得监控出现了问题,最后通过重启入口的路由器解决了问题。
某店返券出现了故障,顾客消费完后反代金券,但代金券却反不出来,原因是发布的时候系统的配置出现了变更,使得代金券的日期改了,然而由于中间没有一个很好的版本管理和发布管理使得工作人员很难找到bug的源头。
新零售运维面临的挑战
目前新零售运维面临的问题如下:
- 快速发现故障:从而找到相关的工作人员来维护秩序,防止出现不可控的局面。
- 减少故障:在线上时做好调试。
- 快速从故障中恢复:在故障中恢复也是当前最核心的的挑战。
链路分析
用户在门店外有两种途径可以进行访问,第一种是通过收银机、打印机、pos机到前置机去访问数据库。第二种是通过手机设备app进行访问。
在分析链路的过程中可以总结成两个大方面会出现故障:
- 基础设施链路故障
- 应用链路故障
在这个链路分析中。首先,前置机可能因为没有得到变更会出现问题。其次, 门店的数据库到*机房的数据库可能会因为网络不稳定、数据库拥塞、数据库的磁盘满载而出现故障。再次,研发部门在写代码的时候可能没有让某部分应用是成组vip待遇而出现问题。最后,有可能链路端点出现问题。
当链路有问题发生时,首先要去用户现场检查发生了什么问题,然后分析问题并能够将基础设施结构图画出来,并在链路上标出可能出现故障的地方。最后解决问题,解决问题的手段多种多样,但要学会借鉴解决问题的思路。
在企业分析历史阶段,应找出企业去年、今年、明年会出现哪些问题。同其他企业相比,解决这些问题时需要哪些东西。比较这些东西会发现不同企业在不同阶段的基本诉求是一样的。
一个业务想要持续稳定的运行需要四部分:
- 基础设施的监控
- 基础设施的运维
- 应用的监控
- 应用的运维
将这四部分搞定,就可以让IT的基础设施和应用持续稳定的运行,着手解决这两部分的问题即将应用配置在vip上面,将基础设施配置好。
解决路径
在不同基础设施上去做难度也是不一样的,基础设施的解剖就像是个外包的过程。例如,像青岛啤酒,他不会去做啤酒瓶和啤酒盖,他会将这些部分外包出去,然后去做自己擅长的部分。所以解决路径也同样需要采用折中的方案,因为无状态的应用容易直接用,而有状态的是很难应用的。这样使得整个网络架构变得简单,保证了稳定性。
解决路径的两种途径:
- 去IaaS层依赖
- StarOps应用运维体系
其中在StarOps应用运维体系的基础上对应用链路进行优化时,当所有的发布还是受控的,发布一些代码的变更会出现一个新的版本,这个版本会记录变更时候的样子,配合监控,最后运行出来。如果发布变更流程走完后,发现交易指标降低了(例如所有的用户不能买东西了),发现这样异常指标的时候,可以通过在数据库里记录的机械系统,将应用退后到上一层可运行的部分,最后解决问题。
落地支撑
解决用户问题的两大部分:
- 咨询方案
- 核心样板建设
从企业的整个落地支撑来说,工具是不足够的,工具就像是一把很厉害的武器。从运维体系来说,当给用户做了一系列的解决方案,例如路线图,首先要减少运维出现的问题,其次规划好开发的流程,最后通过变更的管控和配合核心样本的建设做出解决方案。
先推行核心电路,从零售企业来讲,属于交易,
实施前后效果
由解决方案实施前和实施后的对比可以发现发布效率提高10倍、常规运维效率提高3倍以及故障下降了1倍。
本文由云栖志愿小组毛鹤整理编辑