5月20-22日,第十三届中国系统架构师大会(SACC2021)在云端进行网络直播,主题为“数字转型、架构重塑”。阿里云边缘云原生技术专家江岑,分享了阿里云在边缘云原生的探索实践,并从应对技术挑战与系统架构设计等方面阐述产品核心竞争力,以创新技术驱动业务发展。
云原生发展与现状
随着云计算技术的成熟,大多数企业选择云计算来快速部署运营业务。5G规模商用,更是促进全球数百亿的终端设备联网。客户对于低时延、大带宽的近端准实时计算需求将大大增加。边缘云计算市场规模的增长,一方面来自于中心业务的下沉边缘,另一方是各类边缘创新业务场景的出现和发展,例如云游戏,智慧城市等。
江岑认为,企业业务系统上云,无论是上中心云还是边缘云,大都会经历三个阶段:
自建IDC的迁移,基于稳定性以及灾备等因素考虑,不会对业务架构有大调整,大部分只使用最基础的云服务,如ECS, SLB, VPC等;
整体业务上云,从全面复用云的能力和提效降本的角度出发,随云而生的架构演进也逐步开始灰度应用。
当一切就绪,业务开始大规模拥抱云原生。
而现阶段,很多上云业务已经在大规模推进云原生化。
云原生概念最早来自CNCF云原生计算基金会,Google孵化的Kubernetes平台。CNCF成立于2015年底,已孵化了大量符合云原生标准的优质项目,核心模块包含数据库、消息中间件、应用编排调度、CICD持续集成、RPC、 服务网格、容器服务、云原生网络等等。
现在,云原生技术已经不局限于容器/Kubernetes领域,逐渐成为广大云厂商中立的软硬件基础设施的标准架构。边缘计算是在最近3-5年内随着5G、物联网技术应用而逐步兴起的技术,其技术成熟度还远低于中心云计算,目前CNCF上涉及边缘计算的项目还不多。伴随着边缘场景以及配套能力的提升,中心大量业务下沉到边缘,边缘创新场景不断涌现,必然会在边缘侧催生符合边缘特色的云原生技术。
边缘云原生演进面临的挑战
在谈到云原生技术如何向边缘演进时,江岑提到了3个技术挑战:
- 从资源侧看,边缘不同于中心大规模集中式的布局,主要以分布式和高地域覆盖率为目标建设。除了中心标准的云服务器,在边缘侧还存在大量的异构资源,包括物联网设备、MEC、合作共建节点等等。云原生技术对部署环境是有明确要求的,因此需要对边缘侧海量的异构资源做灵活的适配。另外,边缘节点的特点是小而多,提升资源复用率是关键,这就要求能够根据资源池化的能力和资源性能做灵活的弹性调度。
- 从技术能力来看,云边基础设施存在差异,云原生能力直接下沉应用到边缘时,除了需要提供等同于中心的性能指标、安全隔离、容灾自治、架构感知等能力,还需要不断完善云边以及边边高速通道建设等,进而提升建设难度系数。
- 当资源适配、技术能力已具备时,保持用户体验一致会面临很大的挑战。从用户视角来看,中心业务下沉过程势必是个漫长的过程,对于单一业务中心和边缘可能处于长期并存的状态,云边的能力建设很可能存在不一致,大部分的不一致对于用户应该是无感的,所以如何包装产品,在成本、功能、性能、稳定性等各方面达到云边一致的体验,是极具挑战的。
阿里云边缘云原生体系建设
依托遍布全球2800+边缘云节点,阿里云面向用户提供安全、稳定、可靠的边缘计算和内容分发加速服务,构建离用户最近的边缘云基础设施。单个节点是一个小型的IDC,规模在几台到几十台服务器不等。早期边缘云节点建点策略是和CDN分开独立建点,导致资源无法共享,缺少业务。目前建设策略是推动CDN ON ENS资源融合生产,整合边缘算力资源,融合后也给资源的分时复用带来更大的可能性。
CDN作为最成熟的边缘云应用场景,经历了长期的技术架构演进,其基础设施软硬件架构可以复用到边缘云技术中。源站通常为企业自建的服务器,规模及性能相对于中心云是比较有限的。在业务上线早期可以正常运转,但随着业务的增长,面对海量的客户端请求,假如没有CDN,企业只能增加资源投入,否则可能会造成服务端的响应超时甚至服务瘫痪。而CDN通过多级缓存以及全局的DNS调度能力,使用户能就近访问所需的资源(特别是图片、视频等静态资源),避免对源站带宽和服务器造成过度的压力。由于满足不同地域的用户就近接入,可以认为CDN天然具备低时延、全局大带宽的边缘云计算典型特点。支撑CDN的监控、数据智能、配置管理等系统,具备标准的边缘海量数据分发、处理,以及和中心交互的能力,也将逐步演进为边缘云原生的配套标准系统。
根据阿里云边缘云原生的能力模型定义可知:在资源侧,主要是将异构资源(包含传统物理机,云联节点,IoT/MEC设备,ARM阵列服务器等)进行并池云化,在这之上提供边缘云节点操作系统,将计算、存储、网络资源进行虚拟化,并结合容器/K8S标准云原生的能力进行模块化能力构建以及对应边缘标准生态延伸输出社区,比如面向业务需要有全网全集群应用生命周期管理、编排发布的能力,对应到阿里云有定义边缘CRD operator EdgeWorkload提供能力,定义OAM编排扩展能力。面向平台管理员,像多集群管理,租户隔离,元数据管理等也是在边缘海量用户海量数据场景下也需要相应的能力定制。另外边缘存在大量分布式异构资源,如何最大化利用资源,需要依赖于全局的容器调度器结合业务相关的全局流量调度分发策略。弹性伸缩HPA/VPA的场景也是面向边缘分布式的解决方案。
阿里云拥有遍布全球各地的资源,需要对异构资源纳管模块定义分区域的规划策略,进行规划接入,围绕中心管控+边缘自治+多重缓存的方式进行展开。
考虑边缘云的架构复杂度、海量节点数量、异构资源差异性等因素,阿里云通过不断完善系统可观测性和强化Devops运维建设能力,来提升系统稳定性。
同时,阿里云边缘云原生具有异构融合广覆盖、云边体验一致性、标准云原生兼容、算力全域流动性等技术优势。
典型边缘云业务应用
早期CDN节点架构主要是按照资源进行规划部署,2台LVS+小于4台管控机器,剩下都是缓存机器,属于规划先行的部署模式,资源闲置较多,并且也造成建设成本的浪费。在全面推进CDN ON ENS边缘融合计算可以极大提升资源利用效率。
智能终端上云,是未来IoT设备大规模接入很重要的场景,涉及到典型的边缘全局容器调度和流量调度的协同。中心管控会事先根据预估的用户规模申请资源,接入集群,并将容器部署在边缘节点上,在用户请求建连时,根据预定义的流量调度策略,从中心管控获取边缘闲置容器,将用户设备和服务端容器进行绑定。当用户断连时,销毁重建新的容器供后续其它业务使用,避免数据泄漏。中心管控会实时的根据并发请求情况等核心指标进行动态的容器扩缩容。
中心下沉业务,中心具备规模化Region的数量是比较有限的,当客户对延迟非常敏感,首选是在就近边缘节点进行服务的部署和处理客户请求。为保证云边一致体验,业务中控系统需要同时获取中心和边缘的服务数据,再根据用户请求进行流量分发。这样既可以降低对于中心带宽成本和资源的压力,又可以提升用户体验。
最后, 江岑表示,阿里云边缘云原生技术将不断完善调度、资源、协同等方面能力,面向行业客户以及合作伙伴提供最佳云原生应用体验,共同打造边缘云创新应用。