看云栖说云栖——洛神、盘古、鱼骨、方阵、智能接入网关、12个9

众神之王宙斯有两个兄弟:挥舞三叉戟的波塞冬和头戴隐形头盔的哈迪斯

上次聊完了计算,这次让我们来说下网络和存储,相关内容引自2019云栖大会的以下分会场:

  • 云网络专场
  • 开放智能网络专场
  • 下一代存储技术与最佳实践专场

先让我们看看在这次大会上出尽风头的阿里云网络,在这次的大会上阿里云发布了两款自研的交换机硬件:

  • Fishbone、接入交换机,48个25Gb端口、8个100Gb端口。
  • Phalanx、数据中心交换机,128个100Gb端口,64个200Gb端口。

之所以设计成这种端口布局,是因为阿里云在内部使用了一个被称为HAIL(High Availability ,Intelligence,Low Latency,高可用智能化低时延架构)的网络架构,交换机的内部具备完全独立的管理和监控系统,使用自研的AliNOS操作系统。这些交换机硬件并不会对外销售,阿里云做自研硬件的着眼点也并非为了成本的降低和节省,主要的目的就是为了能够自主掌控软硬件和运营体系
在我看来,这种做法就像苹果公司的一体化软硬件体系能够为消费者带来极致的使用体验一样。这也是被集成战略下的产物,要让人家集成你就要求必须把自己擅长的事情做到更加的极致。
当有百万量级的服务器连在一个网络上的时候,要用什么办法能够保证这个网络的高效稳定联通,阿里云的两位专家分享了有关云网络智能化管控相关的内容,阿里云的做法包括如下方面:

  • 采用虚拟设备实现测试环境的弹性部署、阿里云的自研网络设备AliNOS可运行在虚拟化环境下,通过对现有网络拓扑和配置的导入 ,现有网络流量和路由的注入可以实现完全的生产网络环境仿真和测试,所有变更都必须经过仿真测试环境的验证。
  • 统一设备操作接口,屏蔽厂商差异性、针对非自研设备采取开放中间管理API层的做法,对上层管理系统屏蔽厂商差异性,标准化所有变更操作。
  • 采用异常订阅&流式处理事项快速故障发现、利用互联网架构和大数据实时处理机制来实现自动化的故障发现。
  • 采用带内遥测&流量染色实现精准定位、这个就比较有意思了,阿里云通过在网络数据封包中加入标志信息来持续追踪每一个网络封包在网络中的传输情况,当出现故障或抖动时可以快速准确定位。

有了定制的网络设备、再加上智能化的网络运维、还需要对网络协议进行极致的优化。在《阿里巴巴高性能网络技术的现在与未来》的演讲中两位阿里云专家分享了有关阿里云高性能网络转发协议栈以及新一代高速网络流控的内容。通过引入了RDMA的优化版协议ROCEv2,以及支持硬件卸载功能的主机版卡、专门针对高速网络的拥塞控制协议HPCC已经成功支撑起了两次双十一的核心关键系统数据流量,在不同的场景下,相较于TCP的吞吐和时延提升了3-5倍
在云网络专场后面的几位专家还分享了有关网络可视化和数据中心光网络的内容。
在这次的云栖大会上,有关网络基础架构的论坛有两个,除了介绍网络底层硬件和运维管控体系的云网络论坛外,还有一个开放网络专场。
网络专场介绍的更多是阿里云的物理网络,或者称为承载网,在开放网络专场才开始介绍和神龙、盘古并列的阿里云逻辑网络平台洛神,洛神是一个软件定义网络平台,目前承载了几百万个VPC(虚拟私有云),在这些VPC中实际诞生的纪录包括:

  • 单个租户互联超过10万台服务器
  • 单个租户使用超过100G公网带宽
  • 单个租户使用超过10T混合云带宽

为了让混合云的搭建更加顺畅,用户的使用更加便利,阿里云用于搭建混合云的核心产品SAG在这次大会上发布了2.0版本,提供了更多的产品形态:

  • SAG-CCN、云连接网,继续提供SD-WAN软件定义的广域网形态,让私有云通过SAG智能接入网关自动选择就近的接入点实现高速低延时接入公共云。
  • SAG-ECC、高速上云、基于MSTP/MPLS链路的IP-VPN服务,对于一些大型政企客户提供高带宽接入服务。
  • SAG-APP、APP直连、最新提供了软件版本的SD-WAN接入服务,无需专用设备就可以让PC机或者集成了SAG-APP SDK的APP实现自动接入。

科普一下SAG智能接入网关:智能接入网关SAG是一种可以自动安装和配置的网关设备,只要接入局域网和互联网就能自动将局域网接入到指定的云上VPC,SAG的安装部署和运维无需专业网络技术人员。SAG在接入云上VPC时会自动选择连接到离自己最近的阿里云接入点,以降低网络访问时延,提高用户体验。

中国的互联网资源主要还是由三大运营商掌握,因此要实现流畅的互联网接入体验自然离不开运营商的支持,在这次云栖大会上联通提出了大量的和阿里云的联合解决方案,包括SAG-ECC 的MPLS线路、包括SAG在*的高速就近接入等。
笔者就曾经接触过一些企业出海的业务,这些企业在*设置的办事派出机构在访问国内的服务器和应用的时候经常出现丢包、卡顿等现象,当时阿里云就有了SAG智能接入网关这项服务,非常适合这些分支机构使用,但在当时阿里云还没有供海外用户使用的SAG接入点,使用跨境接入的体验不会太好。现在阿里云在和联通合作后,SAG在*就可以使用联通遍布全球的网络和接入点资源,实现跨境的高速混合网络接入。
来自联通的专家展示了一个案例:从南非到上海直接通过互联网访问的网络时延是417毫秒(快到半秒了),而通过SAG就近接入加速后时延变成了245毫秒(提升了41%)。
开放不仅是指对运营商的开放,更重要的是对第三方网络厂商的开放,去年的云栖大会上阿里云宣布了要和世界知名的下一代防火墙厂商PaloAlto的合作,这次的大会上阿里云宣布要对第三方网络厂商开放更多的一方产品的能力和体验(就是让第三方的网络服务在阿里云上能够拥有和阿里云自己提供的网络服务相同的能力)。
我觉得这也是被集成战略下的产物,被集成要求阿里云要选择放弃一些东西,被集成要求阿里云更多的要和合作伙伴和生态去合作,被集成要求阿里云更透明、更开放。
在下一代存储技术与最佳实践专场,阿里巴巴研究员,阿里云智能存储负责人做了《云存储技术演进和十年双11背后的存储最佳实践》的演讲。
盘古作为阿里云上最早诞生的服务之一,支撑了所有的阿里云基础存储服务:

  • EBS弹性块存储服务、ESSD可提供单盘超过100万IOPS。
  • OSS对象存储服务、提供标准、低频、归档类型的存储服务,满足不同业务对存储成本的需求,三AZ(可用区)的同城冗余架构可提供12个9的可靠性。
  • NAS文件存储服务、有极致低延迟的性能型、大容量低成本的容量型、还有面向高性能计算场景的高吞吐CPFS服务。
  • Tablestore表格存储服务、阿里自研的结构化海量存储服务。
  • HDFS大数据存储服务、兼容开源标准的结构化海量存储服务。

在问答环节,有存储行业资深人士对阿里云通过多AZ(多个可用区,或者可以理解为多个相距15公里以上的机房)来实现12个9可靠性的实现细节比较感兴趣,阿里云存储掌门人就进行了更细致的介绍,我复述一下大概的意思:

  • 首先,数据最初的存储上云采用的是三副本的方式,即原始数据重复存储了三份。
  • 然后,将原始数据分成六份,然后再基于这六份原始数据计算出六份纠错数据。
  • 最后,将三个AZ中的每一个AZ都存储两份原始数据和两份纠错数据,这样以来,任何一个AZ故障都能通过其余两个AZ的数据和纠错数据将缺失的数据恢复。

接下来,阿里云分别有专家详细介绍了ESSD、OSS、NAS、表格存储、日志服务的技术和实践的有关内容,这里就不一一介绍了 ,感兴趣的可以找到9月27日上午(云栖大会最后一天上午)的《下一代存储技术与最佳实践专场》观看回放。

上一篇:对不起,“新基建”或许对机器人帮助不大


下一篇:如何在命令行下远程安装终端服务