Delta Lake 时间旅行
读者交流群已经开通了,有需要的可以私信进入读者交流群
听到时间旅行,你是不是觉得很高大上,既然如此高大上,我们就来看看,时间旅行其实就是可以读取历史数据,或者说是历史上某一个版本的数据,这里的版本你也可以认为是历史上某一时刻的快照,其实这就是时间旅行。
数据版本
Delta Lake 允许用户读取表或目录之前的快照。当文件被修改文件时,Delta Lake 会创建较新版本的文件并保留旧版本的文件。当用户想要读取旧版本的表或目录时,可以在 Apache Spark 的读取 API 中提供时间戳或版本号,Delta Lake 根据事务日志中的信息构建该时间戳或版本的完整快照。这允许用户重现之前的数据,并在需要时将表还原为旧版本的数据。
数据变更带来的挑战
我们下面看一下,没有时间旅行的情况下,数据变更会带啦那些挑战
数据审核
从数据合规性和简单的调试方面来看,审计数据变化都是至关重要的,可以了解数据随时间的变化情况。 从传统数据系统转向大数据技术和云的组织在这种情况下都会面临这个问题,从而痛苦不堪。
复现实验环境和报告
在模型训练期间,数据科学家在给定的数据集上使用不同的参数运行各种实验。 当科学家在一段时间后重新审视他们的实验以重现模型时,通常上游管道已经修改了源数据。 很多时候,他们没有意识到这种上游数据的变化,因此很难重现他们的实验。 一些科学家和组织通过创建数据的多个副本来设计最佳实践,从而导致存储成本增加。 对于生成报告的分