《 Delta Lake 数据湖专题系列5讲》文章回顾

简介

众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。


《Delta Lake数据湖专题系列5讲》由阿里云 DDI 团队翻译整理自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。阅读完此系列文章可以帮助您达到入门级,对数据湖Lakehouse有整体上的认识和应用,掌握理论知识体系。


此外,阿里云和 Apache Spark 及 Delta Lake 的原厂 Databricks 引擎团队合作,推出了基于阿里云的企业版全托管 Spark 产品——Databricks 数据洞察,该产品原生集成企业版 Delta Engine 引擎,无需额外配置,提供高性能计算能力。有兴趣的同学可以搜索` Databricks 数据洞察`或`阿里云 Databricks `进入官网,或者直接访问https://www.aliyun.com/product/bigdata/spark 了解详情。


内容回顾

第一篇:

标题:【详谈 Delta Lake 】系列技术专题 之 基础和性能(Fundamentals and Performance)

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Delta Lake 基础:为什么可靠性和性能很重要?
  • Chapter-02  深入理解事务日志(Transaction Log)
  • Chapter-03  如何使用 Schema 约束(Schema Enforcement)和演变(Schema Evolution)
  • Chapter-04  Delta Lake DML 语法
  • Chapter-05  在 Delta Lake 中使用 Data Skipping 和 Z-Ordering 来快速处理PB级数据

《 Delta Lake 数据湖专题系列5讲》文章回顾

第二篇:

标题:【详谈 Delta Lake 】系列技术专题 之 特性(Features)

译者: 张鹏(卓昇),阿里云计算平台事业部技术专家

目录:

  • Chapter-01  为什么使用 Delta Lake 的 MERGE 功能?
  • Chapter-02  使用 Python API 在 Delta Lake 数据表上进行简单,可靠的更新和删除操作
  • Chapter-03  大型数据湖的 Time Travel 功能
  • Chapter-04  轻松克隆您的 Delta Lake 以方便测试,数据共享以及进行重复的机器学习
  • Chapter-05  在 Apache Spark 上的 Delta Lake 中启用 Spark SQL 的 DDL 和 DML 语句

《 Delta Lake 数据湖专题系列5讲》文章回顾

第三篇:

标题:【详谈 Delta Lake 】系列技术专题 之 湖仓一体( Lakehouse )

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  什么是湖仓一体?
  • Chapter-02  深入探讨 Lakehouse 和 Delta Lake 的内部工作原理
  • Chapter-03  探究 Delta Engine

《 Delta Lake 数据湖专题系列5讲》文章回顾

第四篇:

标题:【详谈 Delta Lake 】系列技术专题 之 Streaming(流式计算)

译者: 冯加亮(加亮),阿里云计算平台事业部大数据工程师

目录:

  • Chapter-01  使用 Delta Lake 解决流式数据入湖的难题
  • Chapter-02  使用 Delta Lake 简化股票行情数据的分析
  • Chapter-03  Tilting Point 游戏公司是如何使用 Delta Lake 处理流数据
  • Chapter-04  使用 Delta Lake 构建流媒体视频的解决方案

《 Delta Lake 数据湖专题系列5讲》文章回顾

第五篇:

标题:【详谈 Delta Lake 】系列技术专题 之 客户用例( Customer Use Case)

译者: 韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作

目录:

  • Chapter-01  Healthdirect Australia : 使用 Databricks 提供个性化和安全的在线患者护理
  • Chapter-02  Comcast:使用Delta Lake和MLflow转换查看器体验
  • Chapter-03  Viacom18: 从 Hadoop 迁移到 Databricks ,以提供更多吸引人的体验

《 Delta Lake 数据湖专题系列5讲》文章回顾






获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:

https://www.aliyun.com/product/bigdata/spark


阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,技术专家直播,只为营造纯粹的 Spark 氛围,欢迎关注公众号!


扫描下方二维码入 Delta Lake 中国技术交流社区、Databricks 数据洞察产品交流钉钉群一起参与交流讨论!

《 Delta Lake 数据湖专题系列5讲》文章回顾

上一篇:【月刊】E-MapReduce 2021-09 产品月刊


下一篇:【月刊】E-MapReduce 2021-06/07 产品月刊