智算中心建设热潮涌动 AI服务器赋能加速

在数字化浪潮汹涌的今天,人工智能新技术新发展日新月异。智算作为数字经济时代的新生产力,正逐步成为推动经济社会高质量发展的新引擎。

智算中心:算力时代的“新基建”

近年来,随着人工智能技术的迅猛发展和广泛应用,智能算力需求持续爆发,推动了智算中心的快速发展。2022年,随着国家“东数西算”工程启动,我国算力地图正式开始,形成八大枢纽、十大算力中心集群。

据中国电信研究院发布的《智算产业发展研究报告(2024)》显示,截至2024年6月,中国已建和正在建设的智算中心已超过250个。近期已有多个智算中心项目接连投产,各地正加速推进智算中心建设。

例如:

  • 国内运营商单集群智算中心:中国移动智算中心(哈尔滨)建设完成并正式投产使用;
  • 超芯智算“三南”人工智能算力中心建成投产;
  • “中贝合肥智算中心”正式上线运行,该项目为安徽首家“低碳AI智算中心”。

这些智算中心一般都建设在一线城市和部分县级城市,而这些智算中心的算力不仅满足本地的算力需求,也推动了当地区域经济数字化发展。这一数字表明,中国在智算中心建设方面取得了显著成果,为数字经济发展提供了有力支撑。

智算中心背后的“宠儿”

筹建智算中心除了场地、机房等基础设施,最重要的还是GPU服务器。当前智算中心最火的无疑是4U高度搭配8张GPU的AI服务器,简称4U8卡服务器。相比于NVlink或者国产OAM模组产品,PCIE形态的4U8卡服务器配置更加灵活、在推理端或者模型参数较小时,性价比更高。今天跟大家聊一下4U8卡产品和不同拓扑之间的区别。

目前4U8卡服务器还是以X86或C86平台为主,主流产品支持PCIE4.0和PCIE 5.0;PCIE5.0相比PCIE4.0带宽翻倍,如图1;随着支持PCIE四五代CPU和内存价格的降低,相信预计到明年年中PCIE5.0将占据大部分的市场份额。

可能很多朋友在选型的时候会遇到一个问题,4U8卡机型代数和拓扑这么多,该如何选型?

先来看一下AMD平台,众所周知,目前AMD的CPU在服务器市场上呈现一个追赶的态势,正在一步步攻占Intel的市场份额,根据第三方机构统计显示最新的市场份额已经达到34%,AMD的上下游生态也日渐繁荣。如图2是AMD霄龙系列CPU的参数列表。

可以看到,主流的三代和四代产品,两颗CPU都能提供256个PCIE资源,针对4U8卡机器,除去给GPU的资源128(X16*8),还能有较多资源给到网卡和NVME以及RAID卡等部件,能够满足智算中心的需求。因此AMD平台的4U8卡均是直通机型,不需要上PCIE Switch芯片,CPU和GPU之间的通信延迟更低,成本更有优势。

适用场景:中小规模AI训练、推理;GPU云平台;HPC。

除此之外,再来看一下Intel,虽然AMD市场份额有较大增长,但是Intel目前还是凭借其良好的生态,占据服务器市场的大部分份额。如图3是Intel至强系列CPU各代规格。

相比AMD,Intel在核心数和PCIE资源数量都较少,比如至强3代,单颗CPU只有64条lane,两颗U也只有128条lane,直通机型无法满足8GPU卡配置。因此8卡机器都是带Switch机型;到了至强4/5代,单U升级到80条lane,可以支持直通8卡机型,但装满8卡后,只剩32条lane的PCIE资源可以使用,一些场景PCIE资源还是不够,因此至强4/5代机型也有多种拓扑可供选择。

Switch芯片与Intel 4/5代的8卡机拓扑

下面介绍下市场主流的Switch芯片和Intel 4/5代的8卡机拓扑。

什么是PCIE Switch?

PCIe Switch 即 PCIe 开关或 PCIe 交换机,主要作用是实现 PCIe 设备互联,PCIe Switch 芯片与其设备的通信协议都是 PCIe。由于 PCIe 的链路通信是一种端对端的数据传输,因此需要 Switch 提供扩展或聚合能力,从而允许更多的设备连接到一个 PCle 端口,以解决 PCIe 通道数量不够的问题。

目前市场主流的三代产品均使用的是88096这款Switch芯片,能够扩展出96条PCIE lane, 四代8卡机器均用的是89104这款Switch芯片,支持PCIE 5.0、能够扩展104条PCIE lane,价格也越昂贵。

主流拓扑有哪些?

A. 直通机型拓扑

拓扑特点:

1、CPU-GPU直通,无需通过PCIe Switch中转,延迟低;

2、GPU与CPU间的并发带宽更高、多卡并行计算性能更优;

3、无PCIE SWitch芯片,价格更有优势。

适用场景:

中小规模AI训练、推理;GPU云平台。

B. 带Switch机型_balance mode

Balance Mode拓扑为Dual root,根据PCIe资源将GPU平均分配到每个对应的CPU上,同一个PCIe Switch下的GPU可以实现P2P通信,不同CPU下挂接的GPU需要跨超级通道互联UPI(Ultra Path Interconnect)才能通信(即跨节点通信)。

拓扑特点:

1、两组GPU分别挂载在两个CPU下,负载均衡,CPU算力较高;

2、对于双精度浮点运算,因GPU计算需要使用处理器与主内存,由于Dual root的拓扑上行带宽与内存使用率提升,其性能会优于Single root的拓扑。

适用场景:

GPU虚拟化、绝大多数加速计算应用场景(AI、HPC)。

C. 带Switch机型_Common mode

Common Mode拓扑中GPU的PCIe资源均来自同一个CPU,同一个PCIe Switch下的GPU可以实现P2P通信,不同PCIeSwitch下挂接的GPU需要跨CPU PCIe Root Port才能实现P2P通信,但通信带宽低于同一个PCIe Switch下的P2P通信。

拓扑特点:

1、所有GPU均挂载在同一CPU下,CPU和GPU间占用两条x16;

2、Common Mode在一定程度上能够满足GPU之间点对点的通信,同时可保障足够的CPU与GPU之间的I/O带宽。

适用场景:

适用于计算量及容量较小的模型数据处理。

D. 带Switch机型_Cascade mode

Cascade Mode拓扑中GPU的PCIe资源均来自同一个CPU PCIe Root Port,PCIe Switch之间为级联拓扑,同一级PCIe Switch下的GPU可以实现P2P通信,第1级PCIe Switch下的GPU和第2级PCIe Switch下的GPU之间可以实现P2P通信,不需要通过CPU PCIe Root Port。

拓扑特点:

1、所有GPU均挂载在同一CPU下,资源不均衡;

2、Cascade Mode只有一条×16链路,但由于GPU 之间通过PCIe Switch串接,提升了点对点的性能,降低了延迟。

适用场景:

适用于计算量及容量较大的模型数据处理。

随着AI应用的快速发展,复杂多变的应用场景对计算架构的选择和设计提出了更高的需求。如何选择最优的PCIe 拓扑结构,实现计算资源的优化配置,加速AI服务器的计算处理能力,对于提升智算中心的整体性能至关重要。

思腾合力结合实际需求进行精准选型,为千行百业提供一站式的AI算力解决方案,助力智算中心发挥最大效能,为推动人工智能与数字经济的高质量发展贡献力量。

上一篇:python之面向对象总结


下一篇:使用python与Flask对pdf格式文件进行删改