超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

开源大数据社区 & 阿里云 EMR 系列直播 第四期

主题:Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
讲师:棕泽,阿里云技术专家,计算平台事业部开放平台-生态企业团队负责人
内容框架:

  • Databricks 数据洞察产品介绍
  • 功能介绍
  • 典型场景
  • 客户案例
  • 产品Demo

直播回放:扫描文章底部二维码加入钉群观看回放


一、Databricks 数据洞察产品介绍

1、 Databricks 公司简介
2、 什么是阿里云 Databricks 数据洞察产品

01\ Databricks 公司简介

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

① ApacheSpark 创始公司,也是 Spark 的最大代码贡献者,Spark 技术生态背后的商业公司。

在2013年,由加州大学伯克利分校 AMPLab 的创始团队 ApacheSpark 的创建者所成立。

② 核心产品和技术,主导和推进 Spark 开源生态

ApacheSpark、DeltaLake、Koalas 、MLFlow、OneLakehousePlatform

③ 公司定位
  • Databricksis the Data + AI company,为客户提供数据分析、数据工程、数据科学和人工智能方面的服务,一体化的 Lakehouse 架构
  • 开源版本 VS 商业版本:公司绝大部分技术研发资源投入在商业化产品
  • 多云策略,与*云服务商合作,提供数据开发、数据分析、机器学习等产品,Data+AI 一体化分析平台
④ 市场地位
  • 科技独角兽,行业标杆,领导Spark整体技术生态的走向及风向标
  • 2021年最受期待的科技上市公司

02\ Databricks 公司估值及融资历史

(来源 Databricks 官网)
① 2019年10月G轮,估值 $ 6.2 Billion
② 2021年2月初F轮,估值 $ 28 Billion
  • 本轮融资,三大云服务商 AWS、GCP、MSAzure 以及 Salesforce 都进行了跟投——足以看到云厂商对 Databricks 的发展的重视
  • 上市预期:计划 IPO 在2021年——多方预测 Databricks 上市之时其估值可能达到350亿美元,甚至是高达500亿美元

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

03\ Databricks 和阿里云联手打造的高品质 Spark 大数据分析平台

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

  • Apache Spark 背后的商业公司,Spark 创始团队,美国科技独角兽
  • 在全球拥有5,000多个客户和450多个合作伙伴,品牌认知强
  • 2020年,在 Gartner 发布的数据科学和机器学习(DSML)平台魔力象限报告中,位于领导者象限

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析
超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

04\ Databricks + 阿里云 = Databricks 数据洞察

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

产品核心:
  • 基于商业版 Spark 的全托管大数据分析& AI 平台
  • 内置商业版 Spark 引擎 Databricks Runtime ,在计算层面提供高效、稳定的保障
  • 与阿里云产品集成互通,提供数据安全、动态扩容、监控告警等企业级特性
产品引擎与服务:
  • 100% 兼容开源 Spark,经阿里云与 Databricks 联合研发性能优化
  • 提供商业化 SLA 保障与7*24小时 Databricks 专家支持服务

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

DDI 产品能力核心构件

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

产品关键信息与优势

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

二、DDI 产品功能介绍

1、整体架构
2、引擎能力
3、性能
4、功能
5、成本

01\ 阿里云 Databricks 数据洞察 (DDI) 架构

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

02\ 引擎:企业级性能优化,提升计算引擎效率和数据读写效率

企业级高性能、稳定性、可靠性

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

03\ 企业级 Databricks Runtime vs 社区版 Open Source Spark

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

04\ 基于计算存储分离的架构,HDFS vs OSS 成本的对比

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

05\ 基于 JindoFS 进行 OSS 访问优化加速,优化数据访问性能

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

06\ 交互式分析 Notebook ,聚集数据

优化的 Apache Zeppelin

  • 多语言支持
  • Scala、Python、Spark SQL、R
  • 交互式分析
  • 数据可视化
  • 集成调度能力
  • 一站式开发平台
  • 多用户协作开发

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

07\ 数据开发作业提交 & 工作流调度

  • 支持 jar 包提交作业及作业调度能力
  • 支持 Spark/Spark Streaming/Notebook
  • 不同作业类型工作流混合调度
  • 支持调度运维、审计日志、版本控制等

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

08\ 丰富的数据源支持

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

09\ 元数据管理

三种元数据选择的方式

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

三、典型场景

1、客户存在的痛点问题及 DDI 如何解决
2、Lambda 架构到批流一体架构
3、Lakehouse 架构的演进
4、DDI 在阿里云中产品的组合

01\ 开源大数据平台客户普遍存在的痛点问题

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

02\ Databricks 数据洞察在四大场景帮助客户提升生产效率

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

03\ Delta Lake 的项目背景以及要解决的问题

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

04\ 大数据发展进入 Lake House 时代

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

05\ 使用 DDI 构建批流一体数仓,简化复杂架构

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

06\ DDI 在阿里云产品中的组合

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

07\ Databricks 数据洞察典型架构

DDI 与阿里云产品深度集成(典型场景)

数据获取
  • 接收实时产生的流式数据和外部云存储上批量数据。
数据 ETL
  • 持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障。
BI报表数据分析 & 交互式分析
  • 支持 Ad hoc 查询,Notebook 可视化分析,无缝对接多种BI分析工具。
AI数据探索
  • 支持机器学习,Mllib 等 Spark 生态 AI 场景。
上下游网络打通
  • 如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等。

四、典型场景客户案例介绍

1、基智科技(STEPONE)自建上云案例
2、工业制造头部公司数据分析案例

客户案例 01:基智科技(STEPONE)Databricks 上云迁移

本架构描述利用 Databricks 数据洞察 解决客户大数据计算问题:

  • 数据存储:自建 Hive数仓-》OSS (降低存储成本,同时做计算存储分离)
  • 大数据分析:自建 CDH -》Databricks 数据洞察(全托管 Spark ,高性能 Runtime 引擎,Notebook 交互式分析,工作流 DAG 调度, Python 库的安装方便等)
  • 元数据:自建 CDH -》RDS MySQL 自建元数据库或使用 DDI 统一元数据库
  • 数据迁移:使用 DistCp 或 JindoDistCp 将数据迁移到 OSS,数据结果同步继续使用Sqoop 定时任务

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

客户成本收益分析

  • 全托管 Spark 集群免运维,节省人力成本(省1运维+ 1大数据,此外免去性能调优)
  • 相比自建机器资源多了3倍,此外算上 Databricks Runtime 相比开源 spark 来说(预估3倍),整体性能提升9倍
  • Notebook 交互式分析+ DAG 工作流调度,提升数据开发/分析体验
  • 技术方案统一,计算存储分离方案 OSS 存储节省客户存储成本,并为以后数据湖、多计算架构铺路
  • Delta Lake 解决了客户增量数据更新的问题

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

客户案例 02:工业制造头部空调公司– 大数据分析方案架构

  • 数据收集/存储: 接收实时产生的流式数据和外部云存储上批量数据
  • 数据 ETL:持续高效地处理增量数据,支持数据的回滚和删改,提供 ACID 事务性保障
  • BI数据分析&交互式分析: 支持查询,Notebook 可视化分析,无缝对接多种BI分析工具
  • 数据科学:支持机器学习/深度学习
  • ⽣态对接:如上游对接 Kafka、OSS、EMR HDFS 等等,下游承接 Elasticsearch、RDS、OSS 存储等

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

更多精彩内容,欢迎扫描文章底部钉钉群二维码,进群观看直播回放哦!


获取更详细的 Databricks 数据洞察相关信息,可登录以下链接,也可以直接点击阅读全文跳转产品详情页:

https://www.aliyun.com/product/bigdata/spark
(当前产品提供¥599首购试用活动,欢迎试用!)

阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,技术专家直播,只为营造纯粹的 Spark 氛围,欢迎关注公众号!

扫描下方二维码入 Databricks 数据洞察产品交流钉钉群一起参与交流讨论,进群直接在群内观看直播回放哦!

超详攻略!Databricks 数据洞察 - 企业级全托管 Spark 大数据分析平台及案例分析

上一篇:Emmet:HTML/CSS代码快速编写神器


下一篇:开源大数据技术专场(下午):Databricks、Intel、阿里、梨视频的技术实践