云速搭CADT - AI加速场景架构部署

2021-12-23 15:08:49

分享人：阿瑟，阿里云产品解决架构师

正文：本文将从以下两方面来介绍AI加速场景架构部署：

Ÿ AI加速场景架构部署

Ÿ 实操演示

一、 AI加速场景架构部署

本场景架构重点适用于客户的AI加速场景。大家都知道在线下的IDC训练加速业务中，经常会遇到计算和通信的瓶颈。那么如何借用阿里云的优势来支持客户业务，并且基于CADT快速部署进行PUC，模板验证后可以直接转生产，大大提升了工作效率。推荐如下方案：

Ÿ 常见的业务场景，比如训练场景中会有常用的数据和代码，建议直接上传到阿里云的OSS，然后在ESS上通过OSS下载使用。这里需要注意的是，OSS的bucket名称是全局唯一的。模板创建时可以进行修改，如果需要提供外网访问能力，可以在前面提供epi。

Ÿ 统一的运维入口和权限可控，包括运维实践追溯来满足安全的要求。建议通过堡垒机去进行相应的访问。如果弹性的业务场景，我们会结合阿里云的弹性伸缩，对于算例资源进行伸缩扩容。对于相应的操作审计，我们会通过阿里云的操作审计来记录、监控阿里云账号的活动，包括阿里云控制台，OPPI对于云上产品和服务的访问、使用行为，而且这些行为可以下载和保存到服务里进行相应的行为分析、安全分析和相应的合规审计。

二、实操演示

首先通过阿里云官方，访问CADT控制台，打开架构模板。

云速搭CADT - AI加速场景架构部署

今天的AI加速场景部署主要发生在GPU机器里，主要有几个特点：如果客户有多卡的需求，通过裸金属可以充分利用卡的性能。实现了软件与硬件的计算，灵活弹性和强化性能。同时采用了nvidia计算塔，实现了两两互联，同时还支持esd云盘，icd云盘。实现了网络性能和计算规格的对应。

适用的场景包括深度学习场景，比如：无人驾驶、图像分类、语音识别等人工智能算法和训练场景，还有一些高GPU的科学计算场景，比如：流体计算学、计算金融、分子动力、环境分析等场景。

通过eip进行外网访问；通过堡垒机对于安全、可控、权限、运维、事件追溯的访问；通过云监控统一监控机器的健康程度和设置告警等；通过操作审计对云账号的系列活动进行审计，满足合规要求。

如果需要在该场景下自动安装GPU驱动，训练加速和推理加速的需求，如何通过自定义配置文件进行一键部署呢？在ecs配置里可以看到“实例自定义数据”，这里的参数可以基于实际业务场景进行调整和配置，包括AIACC-TRAINING，AIACC-INFERENCE，JAVA版本，CUDA版本等。

云速搭CADT - AI加速场景架构部署

点击“保存”，可以快速的进行部署。部署好后，点击“应用”-“部署状态”可以看到架构图里的所有资源已经完成相应的部署。

云速搭CADT - AI加速场景架构部署

接下来我们验证一下依赖的驱动是否已经安装好了。访问需要的ECS机器里，可以看到外网访问已经做了相应的绑定。

云速搭CADT - AI加速场景架构部署

我们远程连接一下，点击“远程连接”，通过Workbench远程连接访问这台机器。输入在模板里设定的机器密码。

云速搭CADT - AI加速场景架构部署

从下图中可以看到AIACC-Training（训练加速）和AIACC-Inference（推理加速）已经安装好了。

云速搭CADT - AI加速场景架构部署

然后来验证下nvidia的驱动是否已经安装好了。从下图可以看到驱动已经安装好了。

云速搭CADT - AI加速场景架构部署

从上图我们可以看到CUDA的环境，还可以检查相应的环境以及根据业务需要去激活相应的业务环境。到此为止，基础环境基于依赖的资源就通过CADT快速实现了部署。

如果在业务场景下只需要AIASS的训练加速或者基于GPU的CUDA版本有不同的需求，可以在下图右侧的“实例自定义数据”里做相应的修改，然后保存发布即可。

云速搭CADT - AI加速场景架构部署

架构完成之后，客户可以根据实际的业务进行代码适配，进行相应的PUC验证。

如果完成模板验证后不需要步入生产，可以选择快速释放，需要时再基于模板快速拉起即可。也可以在模板验证后直接转为生产，比如升级eip的带宽，降ecs升级为包年包月的实例等等。