前言
本文翻译自大数据技术公司 Databricks 针对数据湖 Delta Lake 系列技术文章。众所周知,Databricks 主导着开源大数据社区 Apache Spark、Delta Lake 以及 ML Flow 等众多热门技术,而 Delta Lake 作为数据湖核心存储引擎方案给企业带来诸多的优势。
此外,阿里云和 Apache Spark 及 Delta Lake 的原厂 Databricks 引擎团队合作,推出了基于阿里云的企业版全托管 Spark 产品——Databricks 数据洞察,该产品原生集成企业版 Delta Engine 引擎,无需额外配置,提供高性能计算能力。有兴趣的同学可以搜索` Databricks 数据洞察`或`阿里云 Databricks `进入官网,或者直接访问 https://www.aliyun.com/product/bigdata/spark 了解详情。
译者:韩宗泽(棕泽),阿里云计算平台事业部技术专家,负责开源大数据生态企业团队的研发工作。
Delta Lake 技术系列 - 客户用例
目录
- Chapter-01 Healthdirect Australia :使用Databricks提供个性化和安全的在线患者护理
- Chapter-02 Comcast:使用Delta Lake和MLflow转换查看器体验
- Chapter-03 Viacom18:从Hadoop迁移到Databricks,以提供更多吸引人的体验
本文介绍内容
Delta Lake系列电子书由Databricks出版,阿里云计算平台事业部大数据生态企业团队翻译,旨在帮助领导者和实践者了解Delta Lake的全部功能以及它所处的场景。在本文中,客户案例(Customer Use Case),重点介绍Delta Lake的使用案例。
后续
读完本文后,您不仅可以了解 Delta Lake 提供了什么特性,还可以理解这些的特性是如何带来实质性的性能改进的。
什么是 Delta Lake?
Delta Lake 是一个统一的数据管理系统,为云上数据湖带来数据可靠性和快速分析。Delta Lake 运行在现有数据湖之上,并且与 Apache Spark 的 API 完全兼容。
在 Databricks 公司内部,我们看到了 Delta Lake 如何为数据湖带来可靠性、性能和生命周期管理。我们的客户已经证明,Delta Lake 解决了以下难题:从复杂的数据格式中提取数据的挑战、删除数据以实现法规遵从性的困难、以及为数据捕获进行修改数据所带来的问题。
使用 Delta Lake,您可以加快高质量数据导入数据湖的速度,团队也可以在云服务上快速使用这些数据,安全且可扩展。
CHAPTER 01 Healthdirect Australia :使用Databricks 提供个性化和安全的在线患者护理
作为国家卫生服务目录( NHSD )的管理者,Healthdirect 专注于利用 TB 级别的数据,涵盖时间驱动、基于活动的医疗事务,以改善医疗服务和支持。由于治理需求、各自为政的团队和难以扩展的遗留系统,他们转向使用 Databricks 。这促进了下游机器学习的数据处理,同时提高了数据安全性,以满足HIPAA的要求。
数据质量和治理问题、数据孤岛和无法扩展
由于监管压力,澳大利亚 Healthdirect 公司着手提高整体数据质量,并在此基础上确保治理水平,但在数据存储和访问方面遇到了挑战。除此之外,数据仓库阻碍了团队高效地为下游分析准备数据。这些脱节的数据源影响了数据读取的一致性,因为数据常常在堆栈中的不同系统之间不同步。低质量的数据也导致更高的错误率和处理效率低下等问题。这种支离破碎的架构造成了巨大的操作开销,限制了他们全面了解患者的能力。
此外,由于客户需求(如预订、预约、定价、电子健康交易活动等)的不断变化,他们需要接收超过10亿个数据点—估计数据量超过1 TB。
“我们遇到了很多数据挑战。我们只是处理得不够有效并且开始出现批量超限。我们开始意识到一个24小时的窗口不是我们希望的能够提供医疗保健数据的最佳时间和服务”澳大利亚 Healthdirect 公司首席架构师 Peter James 说道。
最终,Healthdirect 公司意识到他们需要实现端到端流程和技术堆栈的革新来正确支持业务。
使用 Databricks 和 Delta Lake 实现现代化分析
Databricks 为澳大利亚 Healthdirect 公司提供了一个统一的数据平台,简化了数据工程并加速了数据科学创新。Notebook 环境使他们能够以可控的方式进行内容更改,而不必每次都运行定制化作业。
“ Databricks 为我们的团队和数据运营带来了巨大的性能提升,”詹姆斯说:“分析员直接与数据操作团队合作。他们能够在同样的时间框架内完成同样的工作,而这一框架过去需要两倍的时间。他们在一起配合工作,让我们看到了我们提供服务的速度正在大幅加快。”
通过 Delta Lake,他们创建了逻辑数据区:登陆区、原始区、中转区和黄金区。在这些区域内,它们以结构化或非结构化状态将数据“按原样”存储在 Delta Lake 表中。在那里,它们使用元数据驱动的模式,并将数据保存在该表中的嵌套结构中。这使他们能够始终如一地处理来自每个源的数据,并简化数据到各种应用程序的映射。
同时,通过结构化流,他们能够将所有ETL批处理作业转换为能够一致地服务于多个应用程序的ETL流处理作业。总的来说,Spark 结构化流媒体、Delta Lake 和 Databricks统一数据平台的出现提供了显著的体系结构改进,提高了性能、减少了操作开销并提高了流程效率。
更快的数据管道带来更好的以患者为导向的医疗保健
由于 Databricks 带来的的性能提升和通过 Delta Lake 对数据可靠性的保证,澳大利亚Healthdirect 公司实现了对其模糊名称匹配算法的精度提高,从人工验证的不到80%提高到95%而且无需人工干预。
通过 Delta Lake 和结构化流的处理改进,他们每月可以处理3万多个自动更新。在使用Databricks 之前,他们不得不使用不可靠的批处理作业,这些批处理作业是高度手工化的,以在6个月的时间内处理相同数量的更新——数据处理方面有6倍的改进。
他们还能够将数据加载速率提高到每分钟100万条记录,在20分钟内加载完整的2000万条记录数据集。在采用 Databricks 之前,处理相同的100万笔交易需要超过24个小时,这使得分析师无法迅速做出决定来推动业绩。
最后,对于满足遵从性要求至关重要的数据安全性得到了极大的提高。Databricks 提供了像 HIPAA 这样的标准安全认证,并且 Healthdirect 公司能够使用 Databricks 来满足澳大利亚的安全要求。这大大降低了成本,并通过监视访问权限的更改(如角色的更改、元数据级安全更改、数据泄漏等)为他们提供了持续的数据保证。
“Databricks 为我们提供了上市时间,以及我们所需要的分析和运营提升,以便能够满足医疗保健行业的新需求。”James 说道。
在 Databricks 的帮助下,他们已经证明了数据和分析的价值,以及它如何影响他们的业务愿景。通过透明地访问拥有良好记录的谱系和质量的数据,,各种业务和分析师团队的参与度有所增加——使团队能够协作,更轻松、更快速地从数据中提取价值,以改善每个人的医疗保健。
CHAPTER 02 Comcast:使用 Delta Lake 和 MLflow 改变观众体验
作为一家全球技术和媒体公司,Comcast 公司为数百万客户提供个性化体验,但由于数据量大、数据管道脆弱、数据科学协作不力,该公司一直在苦苦挣扎。借助Databricks —— 利用 Delta Lake 和 MLflow ——他们可以为 pb 级数据构建性能数据管道,并轻松管理数百个模型的生命周期,使用语音识别和机器学习创建一个高度创新、独特和备受赞誉的观众体验。
基础设施无法支持数据和 ML 需求
实时响应客户对特定程序的语音请求,同时将数十亿次个人互动转化为可操作的洞察力,这让 Comcast 的 IT 基础设施、数据分析和数据科学团队感到紧张。让事情变得更复杂的是,Comcast 公司需要将模型部署到一个脱节且完全不同的环境中:云计算、内部部署甚至在某些情况下直接部署到设备上。
• Massive data : 娱乐系统产生的数十亿事件和2000多万个语音遥控器,导致需要对PB 级别的数据进行会话分析。
• Fragile pipelines : 复杂的数据管道经常失败,难以恢复。减缓下游机器学习的数据摄取。
• Poor collaboration : 使用不同脚本语言工作的全球分散的数据科学家难以共享和重用代码。
• Manage management of ML models : 开发、培训和部署数百个模型是高度手工的、缓慢的、难以复制的,这使其难以扩展。
• Friction between dev and deployment : 开发团队希望使用最新的工具和模型,而运营团队希望部署在经过验证的基础设施上。
Delta Lake 的自动化基础设施、更快的数据管道
Comcast 公司意识到他们需要使整个分析方法现代化,从数据吸收到机器学习模型的部署,再到提供使客户满意的新功能。如今,Databricks 统一数据平台使 Comcast 公司能够构建丰富的数据集,并大规模优化机器学习,简化团队间的工作流程,促进协作,减少基础设施的复杂性,并提供优越的客户体验。
• Simplified infrastructure management : 通过自动化集群管理和成本管理特性(如自动伸缩和现场实例)降低了运营成本。
• Performant data pipelines : Delta Lake 用于视频、语音应用程序和设备的原始遥测数据获取、数据充实和初始处理。
• Reliably manage small files : Delta Lake 使他们能够优化文件,以快速和可靠的大规模摄入。
• Collaborative workspaces : 交互式 Notebook 改进了跨团队协作和数据科学创造力,允许 Comcast 公司大大加快模型原型的更快迭代。
• Simplified ML lifecycle : 托管 MLflow 通过 Kubeflow 环境简化了机器学习生命周期和模型服务,允许他们轻松地跟踪和管理数百个模型。
• Reliable ETL at scale : Delta Lake 提供了高效的大规模分析管道,可以可靠地连接历史数据和流数据,从而获得更丰富的见解。
用 ML 提供个性化的体验
在竞争激烈的娱乐业,没有时间按下暂停键。有了统一的分析方法,Comcast 公司现在可以快速进入人工智能娱乐的未来——让观众沉浸其中,并、他们为击败竞争对手的客户体验感到高兴。
•Emmy-winning viewer experience : Databricks 帮助 Comcast 公司通过提高用户参与度的智能语音命令,创造出高度创新、备受赞誉的观看体验。
•Reducedcomputecostsby10x : Delta Lake 使 Comcast 公司能够优化数据摄取,将640台机器替换为64台,同时提高性能。团队可以在分析上花更多的时间,在基础设施管理上花更少的时间。
•Less DevOps : 将200个用户所需的 DevOps 全职员工数量从5个减少到0.5个。
•Higher data science productivity : 促进全球数据科学家之间的协作,使不同的编程语言通过一个单独的交互式工作空间。此外,Delta Lake 还使数据团队能够在数据管道中的任何位置使用数据,使他们能够更快地建立和训练新模型。
•Faster model deployment : 将部署时间从几周减少到几分钟,因为运营团队将模型部署在不同的平台上。
CHAPTER 03 Viacom18: 从 Hadoop 迁移到Databricks,以提供更多吸引人的体验
Viacom18 Media Pvt. Ltd. 是印度增长最快的娱乐网络之一,过去10年增长了40倍。他们每月为6亿多观众提供多平台、多代、多文化的品牌体验。
为了给他们数以百万计的观众提供更有吸引力的体验,Viacom18 从他们的 Hadoop 环境迁移过来,因为它无法有效地大规模处理数据。通过使用 Databricks,他们简化了基础设施管理,提高了数据管道速度,并提高了数据团队的工作效率。
今天,Viacom18 能够向订阅者提供更多相关的观看体验,同时洞察到优化业务和提高投资回报率的机会。
订阅者和 TB 级查看数据的增长将 Hadoop 推向极限
Viacom18 是 Network18 和 ViacomCBS 的合资企业,专注于为其观众提供高度个性化的观看体验。 该战略的核心需要实施一个企业数据架构,该架构能够对日常查看者数据进行强大的客户分析。但由于印度各地有数百万消费者,数据量的问题很难解决:他们的任务是每天在 VOOT (维亚康姆18的点播视频订阅平台)上接收和处理超过45000小时的内容,每天轻松生成700GB 到1TB 的数据。
Viacom18 的数据湖利用本地 Hadoop 进行运行,无法在其管理层定义的 SLA 内以最佳方式处理90天的滚动数据,这限制了他们满足分析需求的能力,这不仅影响了客户体验,还提高了整体成本。
为了正面应对这一挑战,Viacom18 需要一个现代数据仓库,能够分析更长的一段时间内的数据趋势,而不是每天的快照。他们还需要一个平台,通过允许他们的团队轻松地为集群提供自动伸缩等功能来帮助降低计算成本,从而简化基础设施。
使用 databricks 用于分析和 ML 的快速数据处理
为了实现他们所需的处理能力和数据科学能力,Viacom18 与 Celebal Technologies 合作,Celebal Technologies 是一家总部位于印度的一流销售、数据分析和大数据咨询机构。Celebal 的团队利用 Azure Databricks为Viacom18 提供一个统一的数据平台,使其数据仓库功能现代化,并加速大规模的数据处理。
在 Delta Lake 中缓存数据的能力导致了急需的查询加速功能,而具有自动扩展和存储与计算分离的集群管理简化了 Viacom18 的基础设施管理并优化了运营成本。 “ Delta Lake 创建了一种简化的数据管道管理方法,”Dey 解释说。 “这导致运营成本降低,同时加快了下游分析和数据科学的洞察时间。”
对于 Viacom18 来说,Notebook 功能是一个意外的收获,因为一个通用的工作空间为数据团队提供了一种协作的方式,并通过 PowerBI 提高了从模型培训到临时分析、仪表板和报告等各个方面的工作效率。
利用观众数据支持个性化观看体验
Celebal Technologies 和 Databricks 使 Viacom18 能够提供创新的客户解决方案和见解,提高跨团队协作能力和生产力。使用 Databricks, Viacom18 的数据团队现在可以无缝地浏览数据,同时更好地为客户服务。
Dey 表示:“通过 Databricks,Viacom18 的工程师现在可以对大量数据进行切片,向分析师和数据科学家提供客户行为和用户参与方面的见解。
除了性能提高外,更快的查询时间也降低了总体拥有成本,即使数据量每天都在增加。Dey总结道:“Azure Databricks 极大地简化了流程,并将生产率提高了26%。”
总的来说,Dey 认为从 Hadoop 到 Databricks 的迁移已经带来了巨大的商业价值——降低故障成本,加快处理速度规模,并简化临时分析以更轻松地进行数据探索和创新提供极具吸引力的客户体验。
后续
您已经了解了 Delta Lake 及其如何进行性能优化,本系列还包括其他内容:
- Delta Lake 技术系列-基础和性能
- Delta Lake 技术系列-特性
- Delta Lake 技术系列-湖仓一体
- Delta Lake 技术系列-流式计算
获取更详细的 Databricks 数据洞察相关信息,可至产品详情页查看:
https://www.aliyun.com/product/bigdata/spark
阿里巴巴开源大数据技术团队成立 Apache Spark 中国技术社区,定期推送精彩案例,技术专家直播,只为营造纯粹的 Spark 氛围,欢迎关注公众号!
扫描下方二维码入 Databricks 数据洞察产品交流钉钉群一起参与交流讨论!