SIGCOMM是美国计算机协会(ACM)组织在通信网络领域的旗舰型会议,也是目前国际通信网络领域的顶尖会议。SIGCOMM对论文的质量和数量要求极高,要求具有基础性贡献、领导性影响和坚实系统背景,被SIGCOMM录用的论文具有非常大的影响力。
阿里云洛神云网络团队在云网络领域深耕多年,坚持走自主研发的道路,打造了洛神云网络平台,沉淀了诸多核心技术。本次入选的Sailfish XGW就是洛神云网络平台中软硬一体高性能转发技术的代表。本文将从多维度揭开“洛神云网关XGW”的神秘面纱。
01
洛神云网络平台中的云网关XGW
洛神是飞天云操作系统中负责云网络的核心组件。洛神云网络平台包括Sailfish硬件转发平台,CyberStar弹性网元平台,自研SDN控制系统,齐天智能分析平台等模块,基于CyberStar和Sailfish平台之上,是各种用户可使用到的网络产品,包括大家熟悉的负载均衡SLB,NAT网关,EIP,高速通道,云企业网CEN等。Sailfish硬件转发平台主要通过软硬件一体技术提供高性能转发能力,包括XGW,MOC,ALI-LB等。本次论文介绍的XGW是阿里云自研的可编程交换机。
阿里云云网关XGW
XGW外观类似2U服务器,主要部件有:负责大流量转发的P4可编程交换芯片;负责大表项转发的自研网卡芯片;负责业务编排和智能调度的CPU模块等。XGW性能强悍,可将处理能力从160G提升到3.2T/6.4T,具备更低的转发时延,使整体Capex和Opex大幅降低。
02
洛神云网关XGW应用场景
如下图所示,XGW主要部署在公网访问阿里云的入口、专线上云入口、各地域边界。
典型场景如下:
用户经Internet(公网)访问阿里云,使用的典型产品有EIP和共享带宽
用户IDC访问阿里云,使用的典型产品有高速通道(专线)
云上跨地域通信,如北京地域ECS访问深圳地域ECS,使用的典型产品有CEN
采用软硬一体XGW后,可以满足上述场景的大带宽和高质量需求:
大带宽:如某大客户数10Tbps专线上云流量。
大单流:如IoT场景的GRE Tunnel,单流数十Gbps。
稳定性:没有软转发的CPU打满隐患。
低延时/低抖动:采用软硬件一体化XGW,可以将时延从ms级降低到us级
03
洛神云网关XGW技术实践
XGW网关选择P4可编程ASIC芯片,以满足业务快速迭代需求,避免传统ASIC芯片灵活性不足的问题。另外,传统FPGA虽然非常灵活,但功耗和成本比较高,因此p4可编程ASIC芯片成为必选。对于可编程芯片带来的表项挑战,一方面充分挖掘了芯片的能力,通过多个pipeline共同达成高速的转发性能。另一方面优化整个软件的表项格式。