1、 数据工程师必须选择是捕获源系统的全速快照还是捕获差异(有时称为增量)更新
2、 大多数数据系统在批量移动数据时性能表现得比以单行或单个事件移动数据更好
3、 常用的批量获取数据模式
4、 提取意味着从一个源系统中获取数据
5、 ETL与ELT
6、 数据导出和准备工作是在源系统一侧完成的
7、 一旦数据被提取出来,就可以在其被加载到目标存储之前对其进行转换(ETL),或者简单地将数据加载到存储中,以便将来进行转换
8、 数据以可交换的格式序列化为文件,然后这些文件被提供给获取系统
9、 快照或差异数据提取
10、 将数据迁移到一个新的数据库或环境中通常不是一件简单的事,数据需要被以批量的方式迁移
11、 通过基于文件的获取,导出过程在数据源端运行,让源系统工程师完全控制哪些数据被导出以及数据如何被预处理
12、 当数据从基于流的系统转移到对象存储时,基于数据量大小的批量获取是很常见的
13、 使用差异更新模式,工程师可以只提取自上次从源系统读取后的更新和变化
14、 数据库迁移的最大挑战之一不是数据本身的移动,而是数据管道连接从旧系统到新系统的移动
15、 插入、更新和批大小
16、 使用全速快照,工程师在每次读取更新时都会抓取源系统的整个当前状态
17、 基于时间间隔的批量获取在传统ETL的数据仓库中很普遍
18、 差异更新是最小化网络流量和节省目标存储空间的理想选择
19、 文件或对象存储通常是转移数据的一个很好的中间介质
20、 数据迁移
21、 提取通常是拉取数据,但它也可以是基于推送的
22、 数据经常以文件为介质在数据库和其他系统之间移动
23、 全速快照读取由于其简单性仍然非常普遍
24、 出于安全原因,允许直接访问后端系统往往是不可取的
25、 基于文件的导出和获取
26、 常见的文件交换方法是对象存储、安全文件传输协议(SecureFileTransferProtocol,SFTP)、电子数据交换(ElectronicDataInterchange,EDI)或安全拷贝(SecureCopy,SCP)
27、 批量获取,通常是获取数据的一种便捷方式
28、 基于文件的导出是一种基于推送的获取模式