3.5.2 适用场景
自E-HPC 产品和超级计算集群SCC 提供公共云服务以来,将云原生的弹性、敏捷性、安全性和神龙裸金属具备的强大计算能力相结合,为科研和工业用户提供了将云计算和高性能计算相结合的工业级云超算解决方案,在教育科研、制造业仿真、天体物理、新药研制、影视渲染、材料工程、基因工程、气候气象、石油勘探等行业都有典型应用和广泛应用潜力。同时,对于暂时没有条件将HPC 应用和服务迁移到阿里云公共云的科研和工程客户,阿里云还提供了基于飞天专有云架构的SCC 专有云产品,帮助客户实现线上线下混合云的融合HPC。
计算资源存储资源ECS OSS NAS/CPFS 网络安全VPC 云盾 SCC+IB GPU 数据库、大数据、负载均衡… 飞天云操作系统第三方IaaS管理平台虚拟机VM 裸金属服务器IB网络VxLAN 网络快照镜像数据卷
图3-50 SCC 专有云方案
1. 教育科研通用HPC 应用
对于教育科研通用HPC 应用,阿里云通过E-HPC 平台提供了“云上超算中心” 的功能,用户只需一个账号,就可以体验无须排队的快速创建、自动缩扩容和弹性调度的HPC 服务。教育科研通用HPC 应用通常是开源,或者用户自己研发的并行软件, 通过将数据和应用从线下客户端或数据中心上传到云端E-HPC 环境,就可以开展全流程的计算与可视化,这样的通用HPC 计算是通过图3-51 所示的控制流与数据流来实现的,这也是HPC-as-a-Service 的形象写照。
教育科研通用HPC 相对简单,通常由自上而下的应用软件、运行时库、开发环境、中间件和底层操作系统构成。一般工业和其他行业应用环境是一个更为复杂的软件系统,通常由第三方软件服务集成商或者用户开发的业务软件、商用ISV 软件和HPC 平台系统构成。在这种情况下,阿里云会与行业客户一起制订出有针对性的解决方案,阿里云超算提供的Open API 会和第三方软件、软件集成商对接,保证可以将行业业务环境的系统无缝迁移到阿里云超算。
2. 制造业仿真——汽车仿真应用
车企通常会自建或租用超算集群来作为汽车结构、流体和碰撞等仿真的计算资源,随着市场竞争和新车型上市压力的加剧,快速获得规模可变、支持大批量并发
作业的计算集群,成为推动车企使用阿里云超级计算集群SCC 构建公共云仿真平台的最重要原因,而阿里云平台具备的快速扩容能力,长期稳定的主动运维,和车企长时间无故障运行的要求相契合,并显著降低制造业仿真的CAPEX 和OPEX。上海汽车、吉利集团、东风日产等车企均构建了在阿里云上的SCC 仿真云,基本架构如图3-52 所示。
图3-51 教育科研通用HPC
1.车客户企业网络混合云独立子网数据上传服务器DDC服务器本地图形服务器集群图形服务器集群本地计算集群本地存储服务器阿里云EGS实例HPC集群阿里云SCC实例阿里云SCC实例阿里云SCC实例阿里云NAS文件存储阿里云EGS实例客户终端Web Portal License服务器 AD域服务器 HPC 管高 速 通 道阿里云VP
C 3.作业可直接提交到阿里云HPC集群4.每日处理数百个碰撞分析、流体分析作业
图 3-52 汽车仿真云架构
汽车和制造业仿真客户只需在本地集群和阿里云公共云SCC 集群之间部署专线, 就可将仿真任务和数据通过专线传输到阿里云SCC 集群的共享NAS、CPFS 文件系统,通过HPC 集群上的自动缩扩容实现对所有作业的无阻滞调动,运行结果可以通过云图站、云桌面进行可视化分析,并通过混合云弹性伸缩和作业调度器实现对混合组网状态下的计算和数据调度。
某大型车企的仿真平台使用SCC 集群,碰撞单核计算能力提升了30%,流体单核能力提升了15%,17000 核的计算能力带来了22000 核的计算能力。更为重要的是,阿里云后台的主动运维和弹性裸金属的伸缩能力,保证了整个集群以90% 以上的CPU 利用率全速运行。
3. 影视渲染后期全流程
影视渲染属于高性能计算中“Embarrassing Parallel”,即“完美并行”计算类型, 和节点间大量数据通信的MPI 模式不同,它对计算集群的网络延迟要求不高,计算任务是高并发的批量处理,因此各种弹性计算资源均可用于渲染。对影视制作公司而言,后期特效计算量极大,对于计算力的弹性要求很高,本地渲染农场数百台多核服务器在高峰期任务排队严重、低谷期利用率又不高,高峰期必须借助外部渲染农场服务器才能完成渲染任务。而农场服务器性能不高、硬盘寄送方式导致的资产安全性差、技术能力弱、缺乏弹性伸缩等问题让客户非常头痛。
渲染上云超算能够解决客户痛点,采用E-HPC 实现基于deadline 调度引擎和专门为渲染场景设计的混合云NAS 异步文件缓存,实现大批量渲染数据的高效拉取, 并以云图站、云桌面可视化集群和渲染集群打通的云端审片,在某大型影视渲染公司的基于E-HPC 的影视后期制作渲染审片全流程如图3-53 所示,其中关键是要实现图3-54 所示的E-HPC 混合云NAS 异步缓存。
E-HPC 为大并发、多文件、多冗余读取的渲染开发的轻量级异步缓存,不引入额外时间开销,和渲染计算异步进行,线下素材只被拉取一次,有效降低了专线压力,并能够自动感知/ 校验线下素材改动,无须手动同步,客户可直接访问缓存数据,实现透明数据迁移和备份,渲染结果因此可以在云上/ 线下由客户灵活控制。
图 3-54 E-HPC 混合云异步缓存128
4. 生命科学药物研发
云上高性能计算为药物研发提供HPC+AI 计算平台,实现云上计算药物研发(CDDD, Computational- Driven-Drug-Design )和人工智能药物研发平台(AIDDD, AI-driven-Drug-Design), 支撑传统高性能计算软件, 如Dock6、AutoDock Vina、Gromacs、NAMD 等,以及AI 方案所需的计算需求。在药物筛选阶段,需要在海量的分子库中,筛选有效的先导化合物进行优化和制药,云上高性能计算提供了高通量虚拟筛选计算产品,实现分子筛选任务,在节点间、节点内高并发执行,加速药物研发进程。
此外,云上高性能计算发挥云的优势,第三方药物研究机构可以将自己的研究方案与云超算集成,然后对外直接提供计算服务。例如,在针对COVID-19 的药物研发期间,全球健康药物研发中心(Global Health Drug Discovery Institute, GHDDI)将自己的HPC+AI 解决方案部署到云上超算,对合作伙伴开放,能够让其他研发人员加速药物研发工作。通过全球加速方案,将海外的生物数据直接下载到超算共享目录,让合作伙伴共享使用。同时,GHDDI 将自己的研发结果直接放到对象存储产品OSS 上, 并使用ECS 计算服务器搭建Web 服务器,将OSS 访问链接放在Web 服务器上,供全球科研人员进行浏览、下载。GHDDI 药物研发解决方案如图3-55 所示。
图3-55 GHDDI 药物研发解决方案第3 章 计算产品和技术129
限于篇幅,以上只给出几类典型算例:一类是需要低延迟、高带宽的RoCE 网络的紧耦合通信的工程仿真,使用SCC 集群;一类是松耦合、高并发的批量处理,使用E-HPC 调度ECS 服务器;一类是高并发药物筛选,使用SCC GPU 集群计算与对象存储OSS 提供网页服务。基于高性能计算我们还实施了EDA 半导体仿真、气候模拟、石油勘探、生物制药、基因计算等全流程解决方案。