“更高带宽,更高性能”,一直以来都是网络领域的不懈追求。如今,随着云计算、大数据、移动化等新一代IT技术的应用带来了数据量的海量增长,以及用户对体验的关注,这一目标显得更为紧迫和现实。比如,NVIDIA(英伟达)最新推出的深度学习一体机对网络带宽和性能的要求已经达到了新的高度,标配就有4片100G的网卡。
其实,网络领域也一直在不断创新,努力提升网络产品的性能和带宽,“卸载”(即将传统由CPU处理的部分工作转移到网络设备进行)就是其中的技术之一。Mellanox就是这一技术的主要倡导者和实践者,正是基于这一创新技术,Mellanox不断推出新一代更高性能的网络产品。日前Mellanox全球市场部副总裁 Gilad Shainer在接受记者采访时表示,明年Mellanox将推出200Gb/s的InfiniBand和以太网交换机,这也是业界首次推出如此高速的网络设备。此举无疑会又一次推动网络传输能力的升级。
Mellanox全球市场部副总裁 Gilad Shainer
加速网络互连
提到Mellanox,在HPC领域几乎无人不知。Mellanox成名于HPC,从其2001年推出一代InfiniBand产品以来,一直是InfiniBand市场的领导者。在最近一期的全球超级计算机500强(TOP500)榜单上,前500套HPC中有39%(194套系统)采用了Mellanox的InfiniBand产品。如果以其中真正用于超级计算的设备来计算,占比会更高,达到65%。
“在HPC市场InfiniBand占有绝对的优势。在排名最靠前的这些系统,比如千万亿次的系统中,我们占据了近一半的市场份额,这充分了Mellanox在高性能计算系统里面的实力。”Gilad Shainer说。
Gilad Shainer介绍说有可能问鼎2018年TOP500第一的美国“Coral珊瑚”系统也会采用Mellanox InfiniBand。
当然,InfiniBand并不是Mellanox发力的唯一领域。除了InfiniBand之外,在以太网领域,Mellanox同样成绩斐然,尤其是在高性能计算方面。比如,在全球HPC TOP500的榜单中,所有4万兆以太网系统采用的都是Mellanox的产品。同时,全世界第一套100G以太网的系统用得也是Mellanox的网络产品。
值得一提的是,上文中提到的4万兆以太网和100G以太网系统都出自中国,这一方面说明Mellanox在HPC领域的技术实力,同时也表明中国在HPC领域的领先态势。
Gilad Shainer说,HPC领域是Mellanox的传统领域,除了HPC之外,Mellanox还将其技术优势扩展到其他领域,包括高速存储、数据库、人工智能等。其中,人工智能也被Mellanox锁定为今后的重点领域。
“在这个领域里,需要对大量数据进行分析和读取,非常类似于高性能计算。另外,Mellanox还能够通过机器学习和人工智能等快速地延伸到物联网、自动驾驶、医疗、制造、零售等众多行业。”他说。
从“以CPU为中心”到“以数据为中心”
Mellanox在高速网络方面的成绩得益于其独特的技术理念和基于这些理念下的诸多独特优势,“以数据为中心的网络”就是其中之一, 而“卸载”则是为了落实这一理念而采用的技术。
在Mellanox看来,传统数据中心的计算模式是以CPU为中心,即所有的数据都要移动到CPU以后才能进行计算。在小数据量的时候,这一模式运转得很好,但当数据量不断增加以后会出现问题。比如,现在很多领域用到了分布式计算方式,其中CPU都要等待数据达到以后才计算,如果要移动的数据太多就会使整个应用程序的性能出现瓶颈——因为CPU要等数据到齐才能完成计算,有时还会出现互相等待的情况。
Mellanox认为,未来的数据中心应该是以数据为中心的,也就是数据在哪里,计算就应该在哪里发生,从而避免CPU成为瓶颈。为了践行这一理念,Mellanox设法让网络参与到计算过程中,也就是把一部分计算交由网络设备来完成,网络设备的角色不再只是数据的传输者,这就是Mellanox所说的“卸载”。
“以数据为中心的新一代架构应该是:数据在哪儿,数据分析就在哪儿。如果数据在CPU,我们就在CPU分析;如果数据在传输当中,我们就应该有能力在数据的传输路径中完成这个数据分析。为了高效地分析数据,我们就需要把计算能力向数据转移,而不是把数据向计算去移动。”Gilad Shainer表示。
据Gilad Shainer介绍,在“以数据为核心”的数据中心中,数据在网络中移动的同时就会完成一些操作,如数据的加减和数据的简单分析。这样,当数据经过网络传输到达CPU时,已经是经过清洗、处理的数据。这有很多好处:第一,它会提升系统的性能,因为数据不会等到了CPU以后再分析;第二,它会降低数据传输的时延,能把通讯延迟从现在的20-30多微秒下降到3-4微秒。
智能的网络硬件
很显然,以数据为中心的新一代数据中心中,因为网络设备可以分担部分CPU的压力,同时也可以减轻网络的传输压力,是一个不错的演进方向,但这无疑对网络设备提出了更好的要求,也就是网络设备需要更加智能。用Mellanox的表述,就是需要具备“Offloading(卸载)”的网络硬件才能完成数据中心的这一重要转型。
“实际上,Mellanox一直致力于开发智能网络,让网络来协作处理数据。比如,我们发布的最新产品HDR InfiniBand 200Gb/s的网络产品,包括全球第一款200Gb/s的交换机和全球第一个200Gb/s的网卡ConnectX-6,都是基于这一理念推出的新一代智能网络产品。”Gilad Shainer说。
据悉,HDR InfiniBand交换机中的Quantum芯片具有非常强大和智能的处理能力,可以支持网络内的计算,Mellanox将这项技术称为SHArP 2.0。
“通过这个技术能够在我们的交换机里面完成数据分析、数据查询,同时,还能支持聚合式的通讯、包括新的一些Tag Matching,这些功能对整个应用程序性能提升非常关键,无论是传统的高性能计算还是新兴的深度学习、人工智能软件都能适用。”Gilad Shainer表示。
Gilad Shainer强调,除了传统的高性能计算和深度学习能用到卸载,网络设备还能完成很多其他功能的卸载,包括存储、安全以及一些网络协议的卸载,从而提升整体系统的性能。
正是为了更好地实现部分CPU功能的卸载,实践“以数据为中心”的网络,Mellanox于2015以约8亿美元的现金收购了以色列芯片公司EZchip半导体公司,并于2016年推出了一个名为BlueField的SoC芯片。
据介绍,BlueField集成了ARM的CPU和PCIe 4.0的内置交换,是一个具有交换、网络和CPU的SoC系统。根据Mellanox的说法,基于此SoC可以构建很多专用系统,比如存储一体机、深度学习一体机、安全的一体机以及NFV的一体机。
“和传统解决方案相比,这种方式可以达到更好的可扩展性,同时成本更低。这也是我们在网络领域里面一个新的探索,包括如何集成网络加计算的能力,如何更好地去处理数据。”Gilad Shainer表示。
“这就是Mellanox,一方面我们拥有一个被业界证明了的非常稳定、拥有最高性能的并持续不断改进的InfiniBand产品,同时,我们也在不断探索致力于提供更高性能、更高效、更高可扩展性、更智能的新一代的网络产品。”Gilad Shainer总结说。
原文发布时间为: 2017年1月11日
本文作者:邹大斌
本文来自云栖社区合作伙伴至顶网,了解相关信息可以关注至顶网。