分享人:阿瑟,阿里云产品解决架构师
正文:本文将从以下两方面来介绍AI加速场景架构部署:
Ÿ AI加速场景架构部署
Ÿ 实操演示
一、 AI加速场景架构部署
本场景架构重点适用于客户的AI加速场景。大家都知道在线下的IDC训练加速业务中,经常会遇到计算和通信的瓶颈。那么如何借用阿里云的优势来支持客户业务,并且基于CADT快速部署进行PUC,模板验证后可以直接转生产,大大提升了工作效率。推荐如下方案:
Ÿ 常见的业务场景,比如训练场景中会有常用的数据和代码,建议直接上传到阿里云的OSS,然后在ESS上通过OSS下载使用。这里需要注意的是,OSS的bucket名称是全局唯一的。模板创建时可以进行修改,如果需要提供外网访问能力,可以在前面提供epi。
Ÿ 统一的运维入口和权限可控,包括运维实践追溯来满足安全的要求。建议通过堡垒机去进行相应的访问。如果弹性的业务场景,我们会结合阿里云的弹性伸缩,对于算例资源进行伸缩扩容。对于相应的操作审计,我们会通过阿里云的操作审计来记录、监控阿里云账号的活动,包括阿里云控制台,OPPI对于云上产品和服务的访问、使用行为,而且这些行为可以下载和保存到服务里进行相应的行为分析、安全分析和相应的合规审计。
二、 实操演示
首先通过阿里云官方,访问CADT控制台,打开架构模板。
今天的AI加速场景部署主要发生在GPU机器里,主要有几个特点:如果客户有多卡的需求,通过裸金属可以充分利用卡的性能。实现了软件与硬件的计算,灵活弹性和强化性能。同时采用了nvidia计算塔,实现了两两互联,同时还支持esd云盘,icd云盘。实现了网络性能和计算规格的对应。
适用的场景包括深度学习场景,比如:无人驾驶、图像分类、语音识别等人工智能算法和训练场景,还有一些高GPU的科学计算场景,比如:流体计算学、计算金融、分子动力、环境分析等场景。
通过eip进行外网访问;通过堡垒机对于安全、可控、权限、运维、事件追溯的访问;通过云监控统一监控机器的健康程度和设置告警等;通过操作审计对云账号的系列活动进行审计,满足合规要求。
如果需要在该场景下自动安装GPU驱动,训练加速和推理加速的需求,如何通过自定义配置文件进行一键部署呢?在ecs配置里可以看到“实例自定义数据”,这里的参数可以基于实际业务场景进行调整和配置,包括AIACC-TRAINING,AIACC-INFERENCE,JAVA版本,CUDA版本等。
点击“保存”,可以快速的进行部署。部署好后,点击“应用”-“部署状态”可以看到架构图里的所有资源已经完成相应的部署。
接下来我们验证一下依赖的驱动是否已经安装好了。访问需要的ECS机器里,可以看到外网访问已经做了相应的绑定。
我们远程连接一下,点击“远程连接”,通过Workbench远程连接访问这台机器。输入在模板里设定的机器密码。
从下图中可以看到AIACC-Training(训练加速)和AIACC-Inference(推理加速)已经安装好了。
然后来验证下nvidia的驱动是否已经安装好了。从下图可以看到驱动已经安装好了。
从上图我们可以看到CUDA的环境,还可以检查相应的环境以及根据业务需要去激活相应的业务环境。到此为止,基础环境基于依赖的资源就通过CADT快速实现了部署。
如果在业务场景下只需要AIASS的训练加速或者基于GPU的CUDA版本有不同的需求,可以在下图右侧的“实例自定义数据”里做相应的修改,然后保存发布即可。
架构完成之后,客户可以根据实际的业务进行代码适配,进行相应的PUC验证。
如果完成模板验证后不需要步入生产,可以选择快速释放,需要时再基于模板快速拉起即可。也可以在模板验证后直接转为生产,比如升级eip的带宽,降ecs升级为包年包月的实例等等。