本文来自阿里云高级技术专家张毅萍(屹平)的分享原文,阐述了他对边缘计算的理解、阿里云边缘计算的布局及云边端三体协同网络的融合与挑战。
分享主要包括以下几块内容:
一、边缘计算顺势而生
二、阿里云四层边缘计算技术栈与挑战
三、关于云-边-端协同网络
四、边缘计算的潜在应用场景
顺势而生:中心与边缘、20年一轮回
在屹平看来,1999、2009和2019在中国互联网发展历史上非常关键。1999年互联网爆发,同时也是阿里巴巴成立的年份。随着应用中心化,迈入2009年,云计算也逐渐被激活,2009年也是阿里云成立的年份,到了2019年,5G元年,边缘计算顺势走上风口。
“从1999年互联网初期的应用边缘分散状态,再到后来的应用中心化、中心云化,再到如今边缘计算、云边缘化的进程,这是一个边缘到中心再到边缘的轮回。那么这其中轮回的原动力是什么?”屹平认为:促使其轮回最重要因素是成本,计算和应用中心化,集约资源必然带来资源的复用率提升和成本的节约,只要数据传输成本够低,计算中心化没有任何问题,这也是过去20年互联网发展的过程。然而,传输成本在互联网应用中是不可忽略的重要成本构成之一,在音视频类应用中尤为明显,互联网传输成本在过去20年的大幅下降,使得大量应用得以实现规模化,云计算也有了爆发的基础。
随着5G的到来,边缘应用的数据量呈几何级数上涨,这些数据都在终端形成、积累,传送到云端,进行数据处理,再返回到终端指导业务。这一系列动作将对网络带宽产生数百Gbps每秒的超高需求,不仅会存在延迟,还需要面临弱网卡顿、连接成功率低等诸多问题,用户体验无法保障。同时,大带宽对回传网络、业务中心造成巨大传输压力,也会让企业面临着巨额的带宽成本。
这意味着集中式的数据存储、处理模式将面临难解的瓶颈和压力。最终,成本作为关键因素之一,使得云边缘化的趋势得以发展,集中的计算再次走向边缘,如此就形成了这样一个20年的轮回。
一场算力的迁徙:云计算与边缘计算的协同
云计算和边缘计算,这二者并不是此消彼长的关系,边缘计算正在拓展云计算的边界。
以常见的互动直播场景举例,大量的弹幕、刷礼物、连麦、秒杀等交互,使数据量激增,同时互动直播场景需要十分准确、快速的计算能力。如果在端上进行视频计算,会大量消耗端的算力,对终端的性能要求很高且耗电量很大,但是将计算放在云中心,又面临高昂的视频传输成本。
这时候,终端算力上移、云端算力下沉,在边缘形成算力融合,云-边-端三体协同的架构将会发挥重要的作用。
如此,直播平台可以根据自己业务的特点和需求,利用云中心实现强大的算力支撑和海量存储的支持,在云中心统一管控下完成核心数据的处理,将部分业务下沉部署到边缘进行终结,这相当于给云中心增加了分布式能力,不仅能在在边缘计算领域建立一套新的生态系统,进行本地数据的初步分析和处理,承担部分“云“的工作,减轻云中心的压力。还能减少复杂网络中各种路由转发和网络设备处理的时延,获取到更低延时,更加能大幅减少网络传输和多级转发带来的带宽成本。如此一来,既能解决处理能力问题,又能优化成本的问题。
「在《边缘云计算技术与标准化白皮书》中也对边缘计算(此处指边缘云计算)进行定义:边缘云计算是基于云计算技术的核心和边缘计算的能力,构筑在边缘基础设施之上的云计算平台。形成边缘位置的计算、网络、存储、安全等能力全面的弹性云平台。通过将网络转发、存储、计算,智能化数据分析等工作放在边缘处理,降低响应时延、减轻云端压力、降低带宽成本,并供全网调度、算力分发等云服务。」
面向城市的四层边缘计算技术栈
当5G万物智联时代到来,城市中蕴含着巨大的计算场景,大量扎根于城市的服务比如智慧交通、智慧园区、智慧零售、智能家居等等,都会产生非常多的数据。阿里云边缘计算未来主要是以地市、区县为单位开展,面向城市服务的交通、医疗、健康、教育、新零售等场景提供算力基础。
城市计算的技术布局,在基础设施之上,阿里云边缘计算更包含四层技术栈:边缘硬件和芯片、边缘计算平台、边缘计算操作系统、边缘中件间和面向边缘的应用与服务。
在基础设施层,其实是基于复杂的、异构的基础设施进行资源拉通;在芯片/设备方面,阿里云边缘计算采用通用芯片、专用芯片和自研芯片解决未来面向场景的边缘计算成本问题;在边缘计算平台方面,阿里云着重打造边缘操作系统,提供三种计算形态(虚机、容器、函数)和三种交付形态(Server、Serverlet、Serverless),为客户营造一个利于使用的计算环境;对于边缘中间件,阿里云要从原本“内容分发的调度”转变为“计算的调度”,同时叠加AI、存储等新技术,逐步形成面向城市应用场景的独特中间件能力;至于上层的边缘应用及服务,则需要结合整个生态和垂直行业伙伴共同推动技术进步。
城市边缘计算的四大技术挑战
当然,在建设整个5G时代的IT基础设施,为产业提供“离用户更近的计算”这条前行之路上,也会遇到很多技术挑战。
首先,是如何构建紧凑小型化计算架构以及灾备体系非常重要。如果把云计算比作一个城堡,那么它可以通过修围墙、排哨兵、巡逻兵去保护城堡,但是在偏远的村庄(边缘计算)也需要通过安全体系的建设,来抵御外敌入侵。
其次是灾备,云计算基本上可以做到的单节点内几十万台机器之间做灾备,边缘节点跨节点灾备系统面临更大挑战。
第三个挑战是云边端协同的问题,把中心云、边缘计算以及IoT进行连接和计算力的协同,发挥云中心规模化、边缘计算本地化与低成本、IoT终端感知等各方面的优势,为客户提供最合适、最经济的“上车点”,也就是计算发生的位置。
最后一个挑战是如何做好大规模资源平台的运营和运维支撑,将复杂度、稳定性等问题封装,尽量实现上层业务透明化对边缘计算来讲也十分重要。边缘计算操作系统需要把解决计算在哪里、如何简化计算的复杂度、如何更便捷地运维分布式计算资产等问题提前解决,客户开发人员只需要简单地调用接口,就可以使用广泛地使用边缘计算策略,而不用担心部署和计算在哪里的问题。
基于场景的云-边-端协同网络
上文提到,构建边缘计算基础设施和上层操作系统将面临着诸多难题,如何打造云-边-端协同网络就是其中的关键。
屹平认为:“云-边-端协同网络是以云为中心,逐层分散延伸的网络。假设云中心REGION在全国10数量级部署,百到千数量级的ENS节点负责广覆盖、流量调度,万数量级的MEC节点负责就近接入。这其中,涉及到云边协同、边边协同和边端协同三部分。”
云边网络
云边网络,想要做好云与边之间的网络,主要有两个关键点:虚实结合、动态选路。在全国所有边缘节点中,选择一批分布地域较好的节点,将这些节点通过专线与云中心连接,其它大部分节点是通过互联网连接。同时,采取专线和互联网链路的动态选择和各种稳定性报障措施,来代替上层应用解决不同网络形态下回云连通性的问题。对于上层应用来说,并不需要去感知接入节点的网络形态。总结下来,云边网络这就是回云的安全和加速网络。
边边网络
边边网络,需要保障上层应用使用的边缘节点之间数据传输透明且安全。涉及两关键词,Fullmesh和安全加速。当前很多互联网应用的数据传输都还是采用多层结构,即有中心层、有一个或两个外层,然后一层一层做数据流量的收敛,如果有数据交互的话,通过中心层绕道是常见的一种方式,这种方式在技术实现上更简单清晰,但是从成本角度考虑却并不是合适。Fullmesh在这里表示的就是边边网络实现的边缘节点之间的直接通讯,无需通过中心绕道;而边边直接通讯是基于由众多边缘节点构建的分布式传输加速网络来克服互联网的数据传输稳定性、跨运营商的传输速度瓶颈等问题。将这种安全加速网络的能力与边缘节点网络融合,从而为上层应用提供透明的边边数据传输加速的体验。
端边网络
端边网络,端边网络更注重智能调度和安全接入,本身与应用场景高度相关,这里引用一个终端安全接入的场景来介绍。终端通过集成SDK的方式来解决安全调度问题,应用的服务接入点调度由SDK实现,应用本身不用去关心应该去访问哪一个节点,通过专门的高防节点(防DDoS)与终端SDK通讯实现调度指令的下发。假设某个边缘节点被攻击至无法服务时,调度实现第一时间的流量切换,同时也能根据边缘节点持续被攻击的来源识别出哪些是真实流量,哪些是攻击流量,长此以往对攻击数据的积累,能够逐步形成攻击源数据库,作为调度和安防策略的依据。每当发生攻击时,基于攻击源数据库的记录就可以更快地发现攻击并完成流量调度。
屹平表示:“云边、边边、端边形成了整体的云边端协同网络。我们希望上层应用在使用阿里云边缘计算服务作为其应用基础设施时,尽量把网络传输优化这部分的工作能够省去,以应用透明的方式直接享受到更稳定可靠、更极速、更经济的网络传输安全加速服务。”
潜在的城市计算场景与实践
阿里巴巴集团拥有庞大的生态体系,业务场景丰富,基于此,云边端协同问题可以得到更好的实践和解决。屹平介绍到阿里云边缘计算,在算力资源层,通过自建节点和遍布全球的多样化边缘节点,确保资源的覆盖;在此之上的操作系统层,依托云计算和边缘操作系统的协同,打造基于体验的分布式计算分发平台;顶层则通过开放API,融合视频直播、RTC、边缘智能、物联网等各类生态技术能力,实现对客户的交付。
未来城市中存在大量的摄像头、传感器,如何把这些数据及时分析,对城市治理形成帮助,这是一个非常大的命题。比如,在市政、交通场景中,把从学校、餐饮、医院的数千万摄像头采集的视频汇聚、传输到城市边缘计算平台,数据在边缘节点进行有效收敛、AI及结构化处理,关键性数据再回传到中心云。
在城市大脑中,这种计算下沉边缘的模式相比直接上公有云可以很好节省回源带宽,相比专有云可以提升交付效率和降低运营成本。在某些典型场景中,网络带宽成本占的比例是占到57%,这是非常大的成本,经过边缘计算的数据收敛之后,带宽可以做到原来的5%,对总成本节省可以到54%。
屹平认为:在5G万物智联时代真正到来之后,当传感器、摄像头就成为整个社会的眼睛,边缘计算解决了时滞和带宽成本的问题,我们就能更好地通过眼睛去识别环境、回传信息、智能分析,实现更智慧的城市管理。这就好像一个人,他的眼睛看到一个物体马上可以识别出来,识别完了之后再将结构化信息传回大脑,边缘计算就是如此。
阿里云从2017年开始基于飞天平台研发边缘操作系统,基于CDN节点改造边缘计算节点,在2018年4月完成锤炼,正式进行基础设施产品化,发布边缘节点服务(ENS),将计算推进至100公里的边缘,建立了标准、安全、多租户的边缘计算底座,在2019年先后发布ENS 2.0和国内首个全域覆盖的边缘节点服务,宣布完成国内30多个省份300+边缘计算节点的全域覆盖。2019年9月杭州云栖大会上,阿里云对外公布将致力于打造基于场景的城市计算能力,围绕城市场景去建设边缘计算基础设施和灵活易用的上层操作系统。