2018年9月19日至22日,在杭州云栖小镇,170余场前沿技术、产品及行业峰会,如火如荼地进行着。这次云栖大会的主题是“驱动数字中国”。作为阿里巴巴经济体新一代计算引擎的计算平台,深度参与了此次峰会。下面小编带大家一起回顾大会的精彩内容。
新一代计算引擎-大数据智能计算引擎
9月21日下午,计算智能峰会在云栖举行。在此次会议上,阿里巴巴副总裁、计算平台负责人周靖人博士及其团队向大家展示了阿里巴巴大数据智能计算引擎的核心技术能力。近年来,由于分布式计算力、网络、存储等能力的大幅提升,大规模数据采集和高效处理成为可能;随着深度学习、机器学习技术的发展,大量、全面、准确的数据成为当前几乎所有商业或科学决策的重要必备条件。海量数据存储、精准数据采集、丰富的数据类型、高效的机器智能算法及与之匹配的超大规模计算力直接决定了技术企业的水平和前景,也影响着技术企业所赋能整个经济体的效率和效果。作为阿里巴巴集团新一代的计算引擎,阿里巴巴计算平台支撑了整个阿里经济体90%以上的结构化/非结构化数据的存储、交换、管控,数据规模已超EB级别。这是一套通用的、超大规模、企业级、全托管的大数据计算体系,包括核心计算引擎、机器学习引擎,集成开发环境,数据存储和管理,以及与上层合作的解决方案,并且具备了新一代计算引擎的五大要素:
- 海量数据规模下高性价比的离线及实时计算力;
- 实时+离线任务一体化研发能力;
- 实时+离线异构数据湖交互式查询能力;
- 超大规模机器学习、深度学习异构计算力;
- 一站式端到端的云上大数据智能研发平台。
上图为阿里巴巴副总裁、计算平台负责人周靖人博士在云栖大会
在本次为期四天的云栖大会上,除计算智能峰会专场外,计算平台还设有数加DataWorks、大数据计算、Flink、机器学习平台、开源大数据五场分论坛专场。
DataWorks-新一代大数据智能云研发平台
数加DataWorks专场—“谱写数据研发的交响曲”,作为大数据必备的一站式研发平台,吸引了大量的参会者参与。DataWorks经过9年集团发展、5年公共云、3年专有云的发展,服务了成千上万的企业。本次大会上,来自阿里巴巴集团的众多专家对新一代大数据智能云研发平台做了详细的解读,针对新一代数据平台的发展趋势提出了4个核心能力:实时离线任务一体化开发、异构数据湖查询、数据端到端服务、实时交互式查询。
上图为阿里巴巴资深技术专家、数加DataWorks负责人徐晟在云栖大会
MaxCompute-阿里巴巴旗舰级大数据平台
与主论坛一同亮相的MaxCompute大数据计算专场也获得了极大关注。作为阿里巴巴集团旗舰级大数据平台,MaxCompute承载了阿里集团99%的数据存储及95%的计算能力。2017年10月,将TPC的benchmark适配到MaxCompute,进行了全球首次基于公共云的bigbench大数据基准测试,数据规模拓展到100TB,性能达到7830QPM,成为首个突破7000分的引擎。 2018年该性能结果再次提升超过2倍,达到18176.71QPM,用实力证明了“中国计算,世界能力”。从计算力、生态化、智能化、图关系四个维度来看,MaxCompute提供的不仅是单一的计算引擎,而是具备EB级规模的云原生、高性能、面向企业完整的大数据服务。
上图为阿里巴巴研究员、通用计算平台负责人关涛在云栖大会
Flink-阿里巴巴在Flink上的优化与改进
此次云栖大会计算平台也首次设立了Flink的论坛。三年前,在阿里巴巴内部启动Flink时,因其开源产品的特性,很难满足阿里大体量的特定场景需求,为了将Flink在阿里巴巴真正运行起来,阿里巴巴实时计算团队做了大量的优化,并命名为Blink。Blink在迭代优化的过程中,也在不断向社区捐赠代码,真正做到“取之开源,用之开源”。目前,阿里巴巴的实时业务场景,从搜索到广告、数据平台、安全等等。所有大的场景都是基于阿里巴巴内部版本Blink展开,同时通过RealtimeCompute产品在阿里提供公共云服务。在前不久刚落幕的Flink Forward上,阿里为Flink提出的批流融合新突破,成为了技术架构上的一个新方向,并在阿里巴巴内部已经得到了初步的成果和验证。
上图为阿里巴巴研究员、实时计算负责人蒋晓伟在云栖大会
PAI-阿里巴巴的算法平台
同日举办的还有计算平台的机器学习平台专场-“为AI的旅程加速”,吸引了大量参会者驻足。机器学习平台PAI (Platform of Artificial Intelligence)是阿里巴巴集团的机器学习算法平台,该平台为用户提供了一站式数据处理、算法模型训练、离线在线预测的服务。随着计算力及数据量进一步呈爆发式增长,数据的积累使得机器学习训练出来的模型有效性大大提高,甚至突破了人类水平,机器智能开始被广泛应用到各行各业。机器学习平台PAI,无缝对接了强大的计算引擎及大数据研发平台。在2018年杭州云栖大会的机器学习专场上,PAI团队向与会者介绍了在深度学习、在线预测、流式算法、增强学习等领域的技术创新。
上图为阿里巴巴研究员、机器学习平台负责人林伟在云栖大会
EMR-开源大数据专场
E-MapReduce在云栖为大家带来一场开源大数据的分享盛宴,从方方面面给各种需求的客户带来了不同的内容,给广大的Hadoop体系用户带来了构建大数据平台的多个必备利器,包括对基础计算引擎SparkSQL的极大优化,对OSS读写的50%以上的性能提升。对大数据运维的全面支持能力EMR apm,以及在深度学习上我们的探索EMR learning。 所有这一切不仅仅是在讲台上,也都已经在我们的云上版本中逐步放出,服务到所有的用户。
图为EMR-开源大数据专场现场
阿里巴巴大数据智能云上编程大赛
由阿里巴巴计算平台事业部和阿里云天池平台联合主办的“阿里巴巴大数据智能云上编程大赛”在此次云栖大会期间迎来了总决赛。本次大赛经历2个月时间,共吸引来自全球9个国家地区,超过1100名的技术Geek加入挑战,最终来自北京邮电大学、南京理工大学、江苏省气象台、黑龙江邮政等高校和单位的5支参赛队伍成功入围决赛。在计算智能峰会上,编程大赛的结果正式公布。冠军“Now coder”团队由来自北京邮电大学的四位研究生组成,他们热爱编程和算法,数据与应用各有所长,相互协作成功夺冠。由于混沌现象的存在,天气预报的精度一直难以提高。本次大赛参赛选手以“集合降水预报”为课题,选取真实的杭州及周边区域格点降水数据,借助于阿里巴巴离线数据存储计算平台MaxCompute和算法引擎PAI,以及一站式数据智能云研发平台DataWorks的各方面能力,以所见即所得的体验,顺利完成了对气象数据的分析利用和结果展现,让算法和应用相辅相成,共同奏响了数据与应用的交响曲。
今天,阿里巴巴计算平台已随着云上业务的发展,将技术普惠到全球,服务于各行各业的企业用户,我们的新一代智能计算引擎正逐步成为当今中国技术积累最深,经受过最大业务考验,具有真正企业级服务能力的大数据智能计算平台。