作者 | 宁川
来源 | 凌云时刻(微信号:linuxpk)
前言
在中国市场,从2010年到2020年的云计算产业正好经历了一轮上升期。在2009年写下第一行代码、2010年推出第一代ECS弹性计算的阿里云作为中国公有云产业的代表,推动了整个中国市场对于公有云的认知——从最开始的怀疑和模糊的概念,到后来逐渐接受和理清技术与市场格局,再到所有厂商的“All In”,2010年到2020年的中国云计算产业走了启动阶段的洗礼。
阿里云弹性计算负责人张献涛
那么,2020年疫情之后的十年,云计算产业又会有怎样的发展?2020年7月15日,阿里云举办了阿里云弹性计算年度发布会,发布了自研的第三代神龙云服务器及新一代ECS产品家族。阿里云弹性计算负责人张献涛在谈到下一个云计算十年的时候强调,云计算模式将反向重构基础硬件和软件,阿里云正在推进的自研软硬一体化架构和全面云原生化,就是为了重构云计算基础设施,也是对未来的思考。
公有云体系对基础设施的反向重构
阿里自研的神龙服务器那么好,能买一台搬回企业自己的数据中心里么?阿里云弹性计算负责人张献涛在2020阿里云弹性计算年度发布会后接受访谈时笑说,有不少企业客户在了解了神龙服务器的“爆表”性能后,提出了这个要求。而这恰恰反应了云计算第一个十年与第二个十年的分水岭。
第三代神龙云服务器开启超性能时代
先看一下神龙三代的性能:第三代神龙云服务器产品家族提供了最多208核、最大6TB内存,云盘IOPS高达 100万、网络转发高达2400万、网络带宽高达100G,均为全球最高性能水平,支持CPU、GPU、NPU、FPGA等多种计算形态,具备3分钟交付50万核vCPU的极速扩容能力,也是云原生的最佳载体。
从2017年推出第一代自研神龙服务器到2020年推出第三代神龙服务器,在短短三年间阿里云就推出了三代自研神龙服务器。而与上一代相比,第三代神龙云服务器的综合性能提升高达160%,比目前全球最*云服务器还要快30%以上,整体算力全球最强。除了诸多的性能提升外,阿里云ECS的单实例稳定性从原来的99.95%提升到99.975%,跨AZ多实例稳定性从原来的99.99%提升到99.995%,均为全球最高水准。
但是,企业能否买一台神龙服务器抱回家,就获得同样的性能和稳定性呢?答案很简单,不能。因为神龙服务器并不像传统中认知的那样是可以抱回家的“一台”服务器,而是融入到阿里云的庞大基础设施中、需要成千上万甚至数十万软硬件共同协作才能发挥极致性能的“一分子”。
这就好比上个世纪改变世界的集装箱。上世纪50年代,集装箱的发明缩短了远洋货运时间85%,物流成本节省了30倍,极大推动了人类生产力的发展。但产品商并不能单买一个集装箱抱回家就能获得物流和生产力的收益——集装箱离不开遍布全球的远洋货船、码头、装卸载体系、铁路、卡车等等完整的生态体系。从之前的散装货船式物流,到后来遍布全球的集装箱远洋物流,从购买独立的货船到生活在集装箱的世界里,人们的观念发生了巨大的变化,而现代全球集装箱物流体系也反过来改变了集装箱以及整个生态链条上所有设施的物理形态——从1830年最早的集装箱到1956年现代集装箱首航,集装箱本身也发生了巨变。
同样的概念套用到公有云模式中。十年前用独立的服务器、存储、网络等设备和软件构建最初的公有云体系,到今天遍布全球的公有云体系将反过来重新设计服务器、存储和网络等设备及软件,最大的改变就是从独立的个体设备到互联的标准化设施——任何人都无法从互联的标准化设施中单独抽取某个组件就期望获得整体设施带来的收益。
对于阿里云ECS弹性计算来说,神龙计算平台、盘古存储平台和洛神网络平台这些阿里自研的软硬一体化计算、存储与网络设施,再加上Alibaba Cloud Linux 2.0这样的自主品牌操作系统和云原生软件体系等,在云平台之间形成更好的合力,才能释放出更极致的性能。
下一个十年,阿里云的答卷
过去的十年间,阿里云从零起步,通过服务广大客户,逐渐打磨服务和产品。从2010年服务中小企业站长的弹性计算ECS 1.0,到2015年服务12306这样极具挑战场景的ECS 2.0,再到2017年和2018年神龙架构承担双11世界级的工程。“可以说通过这10年的发展,我们重构了整个计算的服务模式,也让我们具备了服务全业务场景的能力”,张献涛强调。
阿里云的十年进化
那么下一个10年的云计算长什么样呢?在过去的两三年里,阿里云在不断地问自己,也进行了相应的探索和尝试。2019年9月,阿里云发布了第三代神龙架构,通过第三代神龙架构全面提升了神龙云服务器的服务能力,自研的软硬一体化架构能够大幅度提升计算效率以及网络和存储服务能力。基于第三代神龙云服务器,构建了新一代ECS产品家族,包含了本次发布的第六代增强型实例、第七代高主频实例、内存增强硬实例、新一代GPU实例、NPU实例、超级计算集群实例、全球首款持久性内存实例等等。
以第三代神龙云服务器为ECS带来价值来看。ECS第六代增强型实例,由三部分组成:在计算方面自研了Dragonfly Hypervisor,而不再使用传统的KVM、XEN等虚拟化架构,自研的轻量级Dragonfly Hypervisor不仅资源占用少而且虚拟化效率提升明显,计算抖动性方面可以达到百万分之一级别;在存储方面,第六代增强型实例全系标配ESSD云盘,最新一代ESSD云盘可达单盘100万IOPS、单路延迟最低100微秒,极致性能极大提升了第六代增强型实例的存储能力;在网络方面,阿里云自研神龙架构也带来了超强的网络IO能力,最强可提供单实例2400万PPS转发、每数据包最低延迟21us,业界绝对领先水平。
可以说第六代增强型实例是集大成者,不仅继承了第三代神龙云服务器的优点,而且是自研软件和硬件等多种因素之间巨大化学反应的成果。例如,ESSD单盘具备100万的IOPS、吞吐达到每秒4GB、延迟达到100微秒级别、每一次快照备份可达5秒以内,而这样的超强能力与第三代神龙云服务器结合之后,产生了巨大的化学反应。而在网络方面,第六代增强实例单实例转发可以达到2400万PPS,当前业界最好水平在1000万PPS;第六代增强型实例数据包延迟为21us,当前业界最好水平在30us以上;第六代增强型实例实例支持网卡密度方面,提供了超过100个ENI网络接口,而当前业界最好水平最多不足20个。
除了这些单点性能对比,从端到端的性能对比来看:在MySQL场景中,第六代增强实例最高性能领先190%;在Nginx场景中最高领先86%;在Redis场景中最高领先103%。张献涛强调,无论是计算、网络、存储的性能,还是端到端场景的综合性能,阿里云ECS第六代增强型实例与业界其它云厂商相比,都具有很强的竞争力和优势。
公有云软硬件的“化学反应”
从阿里云ECS第六代增强实例“一骑绝尘”的效果,可以看出阿里云对云计算特别是公有云未来十年的技术判断:以公有云的大规模运营和整体协同体系,反过来重构底层的软件、硬件和应用,从而支撑更大规模的公有云。简单理解,就是让公有云体系中的软件和硬件相互间发生“化学反应”,从而诞生新的“物种”。
阿里云的十年磨练
在软件方面,阿里云整体展开了全面的云原生化。毫无疑问,云原生是当前和未来的云计算标准化技术,特别2019年以来Kubernetes和容器为代表的云原生技术“底座”已经取得了绝对的市场领导地位,相当于把“集装箱”、“货轮”和“码头”等工业标准化,奠定了云计算未来十年甚至更长远的技术标准体系。
阿里云也对云原生“All In”。从2011年迈进容器大门算起,阿里的云原生之路也已经走了十年。过去几年,阿里云凭借业界最丰富的容器产品家族和容器服务,已经连续数年以超400%的规模高速增长。阿里云在容器、服务网格和Serverless均有丰富的产品服务,拥有国内最丰富的云原生产品家族、最全面的云原生开源贡献、最大规模的云原生应用实践、最大的云原生客户群体,产品体系覆盖八大类别20余款产品,涵盖底层基础设施、数据智能、分布式应用等,可以满足不同行业场景的需求。
在Gartner今年4月发布的2020年容器公有云竞争格局报告,阿里云再度成为国内唯一入选厂商。而在今年3月,Gartner第二次公开的《竞争格局:公共云容器服务》年度调研报告,针对Serverless、Kubernetes、服务网格、容器镜像等十项功能维度进行对比,阿里云和AWS覆盖九项产品能力,产品丰富度领先于其它厂商。
阿里云的云原生软件能力,也配合了神龙服务器等自研硬件的“化学反应”。例如第六代增强实例提供了超过100个ENI网络接口,而一个实例的网卡数目增多可以极大提升容器性能;而弹性裸金属实例加上容器技术,可以提供高于物理机的性能,即同样规格的物理机对比运行容器和神龙裸金属服务器,性能会有20%-30%的差距;此外,弹性裸金属实例还支持阿里云安全容器,提升端到端安全隔离能力,与开源方案相比性能提升 30%,也支持阿里云首发机密计算容器,基于软硬一体技术有效保护数据隐私。
2019年阿里巴巴双11就运行在神龙裸金属服务器上,性能提升了20%-30%,综合成本的下降甚至超过了50%。本次疫情期间,容器+神龙裸金属方案以超高性能支撑钉钉抗住有史以来最大的流量洪峰,以前钉钉100%部署在普通物理机上,疫情突发之后出现了*、企业和学校对在线协作的需求猛增,通过云上神龙裸金属+容器弹性部署方案,快速地实现了钉钉业务应用10万核扩容需求。
阿里云智能总裁张建锋近期曾表示,云是一个新型计算体系结构,它从原来的PC时代、大机和小机,全面升级成云的形式;云的特点是分布式,云在互联网分布式基础上更强调弹性,更强调大范围调度、复用、安全性,这是云本身很重要的特点。发展云计算,就要一整套的云系统。过去十年,阿里云终于锤炼出了这套云系统。未来十年,阿里云将用这套云系统,重构底层基础硬件和软件,从而支撑更大规模的阿里云。