在数字化浪潮汹涌的今天,人工智能新技术新发展日新月异。智算作为数字经济时代的新生产力,正逐步成为推动经济社会高质量发展的新引擎。
智算中心:算力时代的“新基建”
近年来,随着人工智能技术的迅猛发展和广泛应用,智能算力需求持续爆发,推动了智算中心的快速发展。2022年,随着国家“东数西算”工程启动,我国算力地图正式开始,形成八大枢纽、十大算力中心集群。
据中国电信研究院发布的《智算产业发展研究报告(2024)》显示,截至2024年6月,中国已建和正在建设的智算中心已超过250个。近期已有多个智算中心项目接连投产,各地正加速推进智算中心建设。
例如:
- 国内运营商单集群智算中心:中国移动智算中心(哈尔滨)建设完成并正式投产使用;
- 超芯智算“三南”人工智能算力中心建成投产;
- “中贝合肥智算中心”正式上线运行,该项目为安徽首家“低碳AI智算中心”。
这些智算中心一般都建设在一线城市和部分县级城市,而这些智算中心的算力不仅满足本地的算力需求,也推动了当地区域经济数字化发展。这一数字表明,中国在智算中心建设方面取得了显著成果,为数字经济发展提供了有力支撑。
智算中心背后的“宠儿”
筹建智算中心除了场地、机房等基础设施,最重要的还是GPU服务器。当前智算中心最火的无疑是4U高度搭配8张GPU的AI服务器,简称4U8卡服务器。相比于NVlink或者国产OAM模组产品,PCIE形态的4U8卡服务器配置更加灵活、在推理端或者模型参数较小时,性价比更高。今天跟大家聊一下4U8卡产品和不同拓扑之间的区别。
目前4U8卡服务器还是以X86或C86平台为主,主流产品支持PCIE4.0和PCIE 5.0;PCIE5.0相比PCIE4.0带宽翻倍,如图1;随着支持PCIE四五代CPU和内存价格的降低,相信预计到明年年中PCIE5.0将占据大部分的市场份额。
可能很多朋友在选型的时候会遇到一个问题,4U8卡机型代数和拓扑这么多,该如何选型?
先来看一下AMD平台,众所周知,目前AMD的CPU在服务器市场上呈现一个追赶的态势,正在一步步攻占Intel的市场份额,根据第三方机构统计显示最新的市场份额已经达到34%,AMD的上下游生态也日渐繁荣。如图2是AMD霄龙系列CPU的参数列表。
可以看到,主流的三代和四代产品,两颗CPU都能提供256个PCIE资源,针对4U8卡机器,除去给GPU的资源128(X16*8),还能有较多资源给到网卡和NVME以及RAID卡等部件,能够满足智算中心的需求。因此AMD平台的4U8卡均是直通机型,不需要上PCIE Switch芯片,CPU和GPU之间的通信延迟更低,成本更有优势。
适用场景:中小规模AI训练、推理;GPU云平台;HPC。
除此之外,再来看一下Intel,虽然AMD市场份额有较大增长,但是Intel目前还是凭借其良好的生态,占据服务器市场的大部分份额。如图3是Intel至强系列CPU各代规格。
相比AMD,Intel在核心数和PCIE资源数量都较少,比如至强3代,单颗CPU只有64条lane,两颗U也只有128条lane,直通机型无法满足8GPU卡配置。因此8卡机器都是带Switch机型;到了至强4/5代,单U升级到80条lane,可以支持直通8卡机型,但装满8卡后,只剩32条lane的PCIE资源可以使用,一些场景PCIE资源还是不够,因此至强4/5代机型也有多种拓扑可供选择。
Switch芯片与Intel 4/5代的8卡机拓扑
下面介绍下市场主流的Switch芯片和Intel 4/5代的8卡机拓扑。
什么是PCIE Switch?
PCIe Switch 即 PCIe 开关或 PCIe 交换机,主要作用是实现 PCIe 设备互联,PCIe Switch 芯片与其设备的通信协议都是 PCIe。由于 PCIe 的链路通信是一种端对端的数据传输,因此需要 Switch 提供扩展或聚合能力,从而允许更多的设备连接到一个 PCle 端口,以解决 PCIe 通道数量不够的问题。
目前市场主流的三代产品均使用的是88096这款Switch芯片,能够扩展出96条PCIE lane, 四代8卡机器均用的是89104这款Switch芯片,支持PCIE 5.0、能够扩展104条PCIE lane,价格也越昂贵。
主流拓扑有哪些?
A. 直通机型拓扑
拓扑特点:
1、CPU-GPU直通,无需通过PCIe Switch中转,延迟低;
2、GPU与CPU间的并发带宽更高、多卡并行计算性能更优;
3、无PCIE SWitch芯片,价格更有优势。
适用场景:
中小规模AI训练、推理;GPU云平台。
B. 带Switch机型_balance mode
Balance Mode拓扑为Dual root,根据PCIe资源将GPU平均分配到每个对应的CPU上,同一个PCIe Switch下的GPU可以实现P2P通信,不同CPU下挂接的GPU需要跨超级通道互联UPI(Ultra Path Interconnect)才能通信(即跨节点通信)。
拓扑特点:
1、两组GPU分别挂载在两个CPU下,负载均衡,CPU算力较高;
2、对于双精度浮点运算,因GPU计算需要使用处理器与主内存,由于Dual root的拓扑上行带宽与内存使用率提升,其性能会优于Single root的拓扑。
适用场景:
GPU虚拟化、绝大多数加速计算应用场景(AI、HPC)。
C. 带Switch机型_Common mode
Common Mode拓扑中GPU的PCIe资源均来自同一个CPU,同一个PCIe Switch下的GPU可以实现P2P通信,不同PCIeSwitch下挂接的GPU需要跨CPU PCIe Root Port才能实现P2P通信,但通信带宽低于同一个PCIe Switch下的P2P通信。
拓扑特点:
1、所有GPU均挂载在同一CPU下,CPU和GPU间占用两条x16;
2、Common Mode在一定程度上能够满足GPU之间点对点的通信,同时可保障足够的CPU与GPU之间的I/O带宽。
适用场景:
适用于计算量及容量较小的模型数据处理。
D. 带Switch机型_Cascade mode
Cascade Mode拓扑中GPU的PCIe资源均来自同一个CPU PCIe Root Port,PCIe Switch之间为级联拓扑,同一级PCIe Switch下的GPU可以实现P2P通信,第1级PCIe Switch下的GPU和第2级PCIe Switch下的GPU之间可以实现P2P通信,不需要通过CPU PCIe Root Port。
拓扑特点:
1、所有GPU均挂载在同一CPU下,资源不均衡;
2、Cascade Mode只有一条×16链路,但由于GPU 之间通过PCIe Switch串接,提升了点对点的性能,降低了延迟。
适用场景:
适用于计算量及容量较大的模型数据处理。
随着AI应用的快速发展,复杂多变的应用场景对计算架构的选择和设计提出了更高的需求。如何选择最优的PCIe 拓扑结构,实现计算资源的优化配置,加速AI服务器的计算处理能力,对于提升智算中心的整体性能至关重要。
思腾合力结合实际需求进行精准选型,为千行百业提供一站式的AI算力解决方案,助力智算中心发挥最大效能,为推动人工智能与数字经济的高质量发展贡献力量。