看云栖说云栖——大数据企业服务

年兽带领动物们攻入幸福能量管理公司!
——《年兽大作战》

本文内容取自2019杭州云栖大会《大数据企业服务专场》。

分会场开场演讲的题目叫做《阿里云大数据企业服务架构》,阿里云专家研究了国内外企业大数据的需求现状得出了以下结论:

  • 单一引擎或单一存储很难满足客户需要:数据/存储千差万别,计算引擎各种各样,开发生态各不相同,需求百花齐放。
  • 纯线下建数据中心不符合潮流趋势:成本、异地多活、容灾、弹性扩缩容、可触达性、实时、生态。
  • 一次性上云实施很难接受:业务中断,切换风险,总体成本,信息安全。
  • 需要的变化:从单引擎到多引擎、单一数据源到多数据源、统一的数据管理和开发、生态。
  • 当前最佳方式:跨引擎统一编程平台+跨数据源综合治理。

下一步就引出本次分论坛的主题了:一站式跨引擎大数据智能研发平台。

现阶段,企业用户需要的不是同统一的大数据计算引擎,而是统一的大数据智能研发平台,阿里云管这个平台叫做DataWorks。

DataWorks的官网介绍如下:

DataWorks(数据工场,原大数据开发套件)是阿里云重要的PaaS平台产品,为您提供数据集成、数据开发、数据地图、数据质量和数据服务等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

DataWorks支持多种计算和存储引擎服务,包括离线计算MaxCompute、开源大数据引擎E-MapReduce、实时计算(基于Flink)、机器学习PAI、图计算服务Graph Compute和交互式分析服务等,并且支持用户自定义接入计算和存储服务。DataWorks为您提供全链路智能大数据及AI开发和治理服务。

从下图可以看到DataWorks在阿里云大数据和AI平台中的位置:
看云栖说云栖——大数据企业服务

(图片来自云栖社区)

DataWorks起到的作用包括:

  • 最底层的统一元数据管理。
  • 中间层的统一调度、统一编排
  • 最上层的数据综合治理,包括:数据发现、数据构建、数据丰富、数据分类、数据剖析、数据血缘、数据分析、数据查询、数据管理、数据交换

阿里云在本次云栖大会上发布了DataWorks V3.0,突出特点包括:

  • 全面支持开源大数据生态
  • 升级混合调度能力、支持跨引擎、跨地域、跨云混合调度
  • AI加持
  • 升级数据综合治理、包括元数据自动发现、数据探查、洞察、透视分析,完善数据质量控制与安全审计机制。

随着DataWorks3.0 的发布,阿里云就是要打破数据量与成本的线性关系,通过性能优化、存储空间优化和智能数据治理降低客户上云成本。国内最大的IT技术网站CSDN通过引入DataWorks实现了基于飞天大数据平台的新媒体数据中台,计算效率提升近3倍、辅助提升业务指标30-50%,成本降低30%。CSDN 通过DataWorks支持的业务线包括:商场、博客、下载、学院、论坛、问答、用户等。

能否妥善解决数据的安全问题是企业上云最大的顾虑之一,DataWorks的数据应用安全解决方案能够提升企业用户在权限管控、数据保护、风险治理方面的能力,防止企业的数据被泄露、滥用、误用。
看云栖说云栖——大数据企业服务

(图片来自云栖社区)

  • 整个阿里云的大数据平台包括MaxCompute、DataWorks等,都基于MAC(强制访问控制),不同于DAC(自主访问控制),在MAC中所有的主体(用户)、客体(数据)都被打上了安全标签,只有满足系统安全策略定义的操作才被允许执行。
  • 权限管控可以细化到表甚至字段级别,可以保证敏感数据不被低安全级别的主体所访问。
  • 对资源的授权和使用操作都将计入行为审计日志中,可以根据用户的行为随时回收权限。
  • 针对数据内容的保护提供静态脱敏和查分隐私两种方案,针对普通的数据保护需求可以使用静态脱敏,针对数据要提供给第三方进行大数据分析的场景可以使用差分脱敏技术,使得经过脱敏变换后的数据在统计学上与原数据具有相同的统计学特征。

差分隐私,脱敏后的数据和源数据具有相同的统计特征,使得数据可用不可见。
看云栖说云栖——大数据企业服务

(图片来自云栖社区)

最后是DataWorks3.0 功能细节的介绍,DataWorks3.0 的改进包括但不限于如下方面:

  • 全域数据集成、新增异构数据源之间传输过程中的数据转换能力,支持数据过滤、连接、联合、聚合等操作,完整支持ETL能力体系。
  • 全域数据开发平台XStudio、提供完全的插件化框架,支持各类计算引擎开发插件,提供智能代码编辑器及DAG-SQL(界面拖拽和SQL语句)相互转换、提供作业统一调度能力。
  • 混合编排调度、支持跨引擎(支持开源和E-MapReduce)、跨云混合编排调度和跨地域依赖调度,支持千万级别的任务调度管理。
  • 自定义计算节点接入、支持自建的计算节点接入DataWorks,支持数据库、自建Hadoop/Spark集群以及其他云厂商的计算服务。
  • 数据综合治理、提供数据发现机制,支持统一的元数据采集和数据资产目录构建,支持数据探查与数据分析、联邦查询及资源优化服务。

基于以上这些功能特性,阿里云提出了《DataWorks3.0 混合云》和《DataWorks3.0 数据湖》两个结局方案。混合云解决方案通过将线下数据中心的计算节点接入到DataWorks实现全域数据集成以及统一的调度和开发。数据湖解决方案主要应用了数据治理和联邦查询方面的功能。

以上,就是我在2019杭州云栖大会《大数据企业服务》分会场看到的主要内容。

今天是大年初一,祝大家新年快乐,致敬还奋战在一线的医务人员们。


上一篇:机器学习(PAI)接入DataWorks


下一篇:看云栖说云栖—— 互联网江湖的生存之道