没错，阿里巴巴背后的AI“发动机”就是它

2021-09-22 02:26:29

随着AI应用百花齐放，GPU算力需求井喷式增长，今天AI与云“搭配”已成为行业共识，AI算力与云原生基础设施的发展也紧密相关。在日前举行的“第十六届中国IDC产业年度大典“上，阿里云基础设施正式发布磐久EFlops智算集群——阿里巴巴业务背后的AI“算力发动机”也正式走向台前。

“计算”And“智算”，算力也有“多模态”

传统的大数据计算（如Hadoop）以单向的、流式的处理流程为主，每次计算任务会有多个相互独立的子任务，单位时间内完成多少任务（吞吐量、并发量），是整个计算系统的重点指标。而AI计算，每个计算任务的子任务需要周期性进行同步，下一次计算迭代的启动会依赖上一次计算迭代的完成，单个任务的完成时间是重要指标。AI业务对计算系统的算力、通信能力等有极高的性能要求。

没错，阿里巴巴背后的AI“发动机”就是它

阿里云基础设施大计算集群部总监曹政

在“阿里云磐久液冷基础设施”专场，他表示：

“高算力集群是推动AI应用发展的发动机，集群体系架构一直在创新，阿里巴巴从2018年开始研发AI集群，为AI业务提供超大规模算力。通过实践和总结，我们认为算力的供给、集群的设计，应从应用出发。”

阿里巴巴AI算力规模化部署应用实践

2018年，阿里巴巴开始研发AI集群，2019年建成0.5 EFlops（TF32）的单GPU集群，2021年已经升级到“万卡”规模，峰值算力达到了1.5 EFlops（TF32）。AI基础设施的持续投资保障了算力供给，更为AI技术发展提供了充足的“动力”。结合内部三年多超大规模AI集群应用实践，阿里巴巴给出了规模化应用AI集群的最优方案。

应用需求是集群设计的指挥棒

阿里巴巴业务场景丰富多样，涵盖视觉、图像、语音、推荐、搜索等多类型AI应用，向外延伸还有医疗健康、数字化社会等综合型应用。以金融为例，部分金融场景的AI业务需要快速实现模型收敛来完成训练，需要为异构算力部件拓展网络资源。而自动驾驶领域则是HPC和AI的叠加，可同时满足大量的模拟仿真和AI需求。

不同的算力集成方案，可以在精度、加速器应用、通讯需求等方面有很大的差异，因此，我们对AI的集群架构提出了针对性的软硬件设计方案。

软硬协同“合而为一” 释放峰值算力

在AI集群层面，通讯的碰撞是计算延迟的主要来源，除了架设集群通信的“高速公路”外，还需要进行合理的通讯调度，避免“堵车”。阿里巴巴通过自研通信库，结合自研硬件，对“万卡”规模的AI集群提供无拥塞、高性能的集群通讯能力。

在一些AI计算任务里，我们发现GPU耗费了大量时间在等待数据加载，真正的计算时间只有很少一部分，不仅影响计算任务的处理时长，也造成严重的计算资源损耗。为解决这个问题，阿里巴巴对AI计算特征进行挖掘，预测数据的最优路径，提前进行“数据预热”。在超大规模集群中，也可以做到资源倍增，计算加速一倍的效果。

AI集群中，GPU是非常重要的异构算力硬件，阿里巴巴通过自研的GPU资源虚拟化技术，对GPU资源进行细粒度切分、调度，以充分释放GPU算力，并且同时具备升级成本极低的特点。经过实际应用验证，GPU虚拟化使资源利用率提升3倍，节省60%+的GPU资源。不仅如此，虚拟化能力在兼容国产供应链方面也具备重要意义。

没错，阿里巴巴背后的AI“发动机”就是它

充足的算力，配合机器学习平台PAI，为AI构建了十分友好的发展环境，使阿里巴巴AI应用百花齐放的同时，也为超级模型等技术探索提供了有力的支撑。

一路向“前” “算力”的发展方向

无人驾驶、自然语言、图像识别……算力不仅为AI应用提供发展“动力”，在科研领域也将发挥更加巨大的价值。

科学家正在使用AI技术，更高效地对蛋白质的三维折叠结构进行预测，为新一代的疾病防治和药物开发进行探索；AI也正在地质监测、即时天气预测、甚至是暗物质探索等多学科的科研课题中发挥越来越重要的作用。

相信在不远的未来将进入“第五计算范式”时代，通过多种异构处理器应用和计算系统架构设计，提供差异化算力，为不同的应用场景提供针对性的算力方案。

计算类型	计算特点
高性能计算（HPC）	精确计算科学
大数据（BigData）+AI	数据科学+模糊计算科学
大数据（BigData）+AI+高性能计算（HPC）	数据科学+模糊计算科学+精确计算科学

• HPC（高性能计算）“第三计算范式”；大数据“第四计算范式”；HPC+AI+大数据“第五计算范式”。

中国工程院院士、清华大学郑纬民教授最近在《人民邮电报》撰文指出：算力和数据是元宇宙和数字经济发展的基础，算力是元宇宙的基础要素，也是衡量数字经济发展的晴雨表。未来，云计算将推动算力成为像水电一样的基础资源，并以服务的形式直接赋能给最终用户。

我们是阿里巴巴云计算和大数据技术幕后的核心技术输出者。

欢迎关注 “阿里云基础设施”同名微信、微博、知乎

获取关于我们的更多信息~

码农公寓

“计算”And“智算”，算力也有“多模态”

阿里巴巴AI算力规模化部署应用实践

应用需求是集群设计的指挥棒

软硬协同“合而为一” 释放峰值算力

一路向“前” “算力”的发展方向

相关文章