2018年新年伊始,1月3日,北京白天最高气温骤降至冰点。然而天气的寒冷,并未阻挡未名湖畔北京大学英杰交流中心里面热烈的气氛——在这里,采用了联想首创45℃温水水冷技术的北京大学高性能计算校级公共平台“未名一号”正式揭牌启用,标志着我国第一套大规模温水水冷高性能计算平台落地运行。
值得一提的是,启动仪式前,北京大学校长林建华与联想集团董事长兼CEO杨元庆,联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧等举行了会晤。双方就未来AI发展趋势、打造世界一流学科,吸引优秀科学家、培养适应未来发展需求的新型人才等话题进行了深入交流。
北京大学校长林建华(左三)与联想集团董事长兼CEO杨元庆(右三),联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧(右二)会晤
为什么一个校级公共平台的启用获得了双方领导的如此重视?又为何把启动仪式放在新年伊始?联想温水水冷高性能计算平台在国内的落地带给了业界哪些启发和意义?是本文要尝试解答的三个话题。
支撑科学创新
众所周知,如今全球已经开始进入人工智能和大数据时代。各行各业,包括科学计算在内的各个学科,都对大规模数据处理的需求大幅度提升,因此计算力的提升成为高校学术创新、提升整体科研实力的关键环节。
北京大学副校长兼教务长高松院士表示,“北京大学正处于创建世界一流大学进程的关键时期,高性能计算平台既可以帮助北大在学科建设、人才培养和科研攻关等方面保持优势,又可以鼓励和带动学科交叉融合,支持重大科研项目。这一平台的建成和启用将为北大高水平科学研究、前沿科技探索和创新型人才培养提供良好支撑和保障。”
很显然,平台不仅会有助于相关领域专家、学者开展最新研究,也是北大科研创新、扎实推进国家重大基础设施项目建设的重要保障。据北京大学物理学院副教授、北京大学高性能计算校级公共平台主任雷奕安透露,“未名一号”在试运行期间,已经支撑了北京大学21个院系的100多个科研项目,甚至支持发表了高水平的论文,得到了各方的肯定。
北京大学物理学院副教授、高性能计算校级公共平台主任雷奕安
“试运行期间,我们把‘未名一号’的相关节点利用率、PUE值、功耗的系统运行状况公布在网上,北京市的很多大学都知道了我们的‘未名一号’的各项指标都非常突出,因此很多学校都希望提前参观看一下,借鉴我们的做法建设自己的高性能计算环境。因为高性能计算对社会、对科学越来越重要。”雷奕安表示。
很明显,超算在科研中的重要性越来越显著。而“未名一号”则在我国高校合理建设超高性能计算平台、降低能耗方面起到了明显的示范作用,因此受到各方的广泛关注就不足为怪了。
正式运行提前
实际上,早在多年前,北京大学就有了建设高性能计算校级公共平台的。
雷奕安介绍说,那时候,北京大学各个院系都有自己的计算中心,甚至很多研究组都自己购买计算机集群,分散了精力和计算资源,无论是电力资源、办公室资源、人力资源等等,都是很大的浪费;另一方面,此前一些大型计算需求的项目会租用国家计算中心,但租用国家计算中心,仍然在软件、存储等方面出现各种问题。
因此学校下决心建设校级超算中心,在上面预装好几十个学科常用的应用软件,不仅缓解各个学科领域对于大规模数据处理和科学计算的海量需求,还方便学校研究人员采用更多新的手段和研究方式,来助力北大推动产学研用的一体化协同发展。
显而易见,自建校级超算平台的好处很多。也正因为此,从试运行开始,“未名一号”就得到了各个院系的青睐,三个月平均利用率高达97%!在这样的情况下,原计划下个学期正式运行的“未名一号”不得不赶在2018年新年伊始提前进入正式运行状态。
“一是因为‘未名一号’试运行的三个月非常稳定,二是因为平台利用率太高,目前已经支撑了100多个科研项目,开了300多个账号,还有太多项目在排队,所以我们提前进入正式运行阶段。”雷奕安解释说。
据悉,未名一号总共由227个节点组成,其中计算节点196个、GPU节点10个、KNL节点8个、胖节点3个、管理和登录节点6个、IO节点4个,存储采用联想GSS24存储系统,容量2784.8TB,计算网络采用Omni-path架构,编译器采用GNU和Intel最新编译器套件,作业管理采用Slurm作业调度系统,集群管理采用联想LiCO集群监控管理套件。该集群系统理论计算峰值高达411万亿次/秒,计算节点理论峰值261万亿次/秒,实测计算能力达到242万亿次/秒。
水冷节能是趋势
实际上,北京大学高性能计算校级公共平台的建设最终花落联想,除了运行高效、稳定之外,另一个重要因素就是节能环保和智能管理。
“我们的优势在于以用户为中心提供服务,不仅可以提供一个稳定、持续、高性价比的整体方案,而且还通过温水水冷、LiCO智能机房管理软件,来帮助用户降本增效。”联想数据中心业务集团中国区副总裁李国庆解释说。
联想数据中心业务集团中国区副总裁李国庆
据悉,联想的高性能计算方案可以做到整机交付、拎包入住,在客户拿到设备的时候基本上已经调优好了,机器处于随时可以工作的状态。
“联想有一套非常严格苛刻的交付流程。专家必须完成三次实施后才允许自己独立实施,因此这一项目请到了联想在美国的三位专家飞过来实施、测试,确保质量。”联想数据中心业务集团中国区企业级营销产品营销总监李炜表示,“正因为联想具备整机交付的能力,因此设备到达北大超算中心到实施交付完成,仅仅用了一个月的时间就完成了。”
联想数据中心业务集团中国区企业级营销产品营销总监李炜
实际上,“未名一号”由于体系架构全、带宽大,所以能够完成的项目非常多,乃至于北大各个院系都争相应用。与此同时,基于联想深腾X8800的“未名一号”采用45℃温水水冷技术,不仅使 LINPACK效率达到92.6%,PUE值控制达1.1,可以更节能,而且由于水的热容要比空气大800多倍,因此整个系统的温度更加稳定,对于CPU、内存的稳定运行和使用寿命都有很大好处,同时也就保证了超算并行计算节点的稳定可靠。
“未名一号节省了50%的制冷散热成本,每年将为北京大学节省60万度电。”雷奕安表示。
满足各界高性能计算需求
据悉,作为数据中心机房水冷解决方案的积极推动者,联想已经与国内外多所高校展开合作。在国内,联想与南京大学、厦门大学等院校合作建立超算平台,持续提供强大计算力支持。在与南京大学的合作中,联想为其交付了近九百万亿次超算集群,创造了国内大学高性能计算平台规模最大的纪录。在全球范围内,联想赢得牛津大学、伦敦大学、芝加哥大学、北卡罗莱纳州立大学等高校的信赖。比如,联想与北卡罗莱纳州立大学研究人员正在开展更深入的研究,以应对全球粮食水源短缺的挑战。在伦敦大学学院,研究人员正在通过大型强子对撞机,重建高能粒子碰撞事件,解决有关宇宙起源的基本问题。
除此之外,联想的HPC也已经广泛应用于*、科研、教育、气象、大气海洋、石油石化、CAE仿真计算、生命科学、人工智能等各个领域。
由左至右依次为北京大学副校长兼教务长高松院士,北京大学党委副书记兼秘书长安钰峰,联想集团高级副总裁、数据中心业务集团中国区总裁童夫尧,联想数据中心业务集团中国区副总裁李国庆
目前,全球最大的7个数据中心中,有6个采用了联想的解决方案和服务;联想还连续第四次取得HPC TOP 500榜单中国第一,全球第二的成绩,并以17%的增长率成为全球增速最快的HPC厂商。目前全球500强企业超算系统中,有92家采用了联想的HPC。所有这些都表明,联想高性能计算的应用领域非常广泛。
“过去数年高速发展的智能化走得越来越快,离我们越来越近。其中计算力,也就是超算集群所发挥作用的地方,是智能的引擎。”在杨元庆看来,联想追求的不仅仅是快,同时非常重视节能环保、重视智能化的研发,为人们工作生活带来便利,为社会发展的可持续性带来有益的经验。