MVP学院大数据专场之我见(上)

5月24 号在北京阿里中心举行了一次MVP学院的大数据专场活动,邀请了阿里云和优酷的技术专家进行了三场主题演讲,其中有些内容令我印象深刻,晒出来供大家参考。

用AI来管理大数据

像阿里巴巴这个体量的公司,数据人才也是稀缺资源。假如用人肉的方式来管理和分析数据,一个分析师撑死能能管理上百个作业,服务几十人的业务团队。而假如用AI来辅助管理和分析数据,一个分析师能够轻松管理上万个作业,服务上千人的业务团队。
不仅阿里巴巴集团自用的大数据平台在拥抱AI,在阿里云对外输出的的Dataphin智能数据构建与管理平台中,数据的连接和统一ID的萃取、数据分析代码的生成、模型的和算法的优化都可以自动的完成。

构建技术生态

在会上,曾经在微软工作过的阿里云研究员结合自己的经历提出了一个技术解决方案四个阶段的理论:

  • 第一阶段、基于业界有影响力的方案解决自身的问题,阿里巴巴最初的大数据计算是基于Oracle的,在Oracle无法满足需求后分别切换到了GreenPlum和Hadoop,这些都是业界有影响力的方案。随着业务的发展,这些方案都遇到了天花板,于是阿里巴巴开始进行自研系统的开发,在微软、Google都有类似的情况。
  • 第二阶段、自研核心系统,阿里巴巴开始自研大数据平台ODPS,从2010年开始在阿里巴巴集团内部使用。
  • 第三阶段、自研核心系统的对外输出,ODPS从2013年开始对外提供商业服务,2016年ODPS2.0发布,并将对外的名字改为MaxCompute。
  • 第四阶段、建立广泛生态、以MaxCompute为基础,流计算平台BLink、机器学习平台PAI、大数据开发平台DataWorks、数据智能产品QuickBI、数据可视化DataV等平台和产品不断扩展阿里云大数据解决方案的适用领域。今天的阿里云大数据解决方案就是一个小核心加一个大外围组成的。

数据本身并不产生价值,计算才能产生价值

阿里的研究员在谈到数据湖的时候表达了两条个人观点:
数据本身并不产生价值,计算才能产生价值。
自从大数据这个概念火起来之后,各种大数据平台建的多成功的少,问题可能就出在这个地方,将数据存储起来并不能产生价值,只有针对这些数据的挖掘和计算才能产生价值,数据存储在哪里并不是核心问题,因此才有:
计算的下推比数据的上报能够更加高效的获取价值。
这么看物理的数据湖可能有些问题,但逻辑的数据湖是有价值的,阿里云的数据湖解决方案就是通过统一的管理分散在各种存储介质上的数据以及统一分配和调度计算工作来实现逻辑数据湖的。
限于个人时间和精力,这次就分享这么多,下次给大家分享大数据平台最佳实践相关的内容。

上一篇:第一个 Flask 程序 | 学习笔记


下一篇:MVP 学院大数据专场之我见(下)