在大数据中扮演重要角色的Hudi,其表格式和查询方式有何特殊之处?他是怎样进行数据的插入更新处理?
首先,Hudi有两种处理数据的表格式:
COW(Copy On Write)
MOR(Merge On Read)
1、COW(Copy On Write)
- 支持快照查询,增量查询
- 处理数据过程:仅使用专门的列式文件存储数据(如:parquet)。 在写入和更新过程中执行同步合并,简单地更新版本和重写文件。
- 因为每次更新操作都会重写整个文件,存在写放大的问题。
2 、MOR(Merge On Read)
- 支持快照查询,增量查询,读优化查询
- 使用柱状(如parquet) +基于行(如avro)的文件格式组合存储数据。
- 处理数据过程:每次upsert时会生成一个delta日志,将每个文件的更新数据存储到日志中,在查询时将日志应用到每个文件 ID 来支持快照查询。
- 因此,这种表类型会平衡读和写放大,以提供接近实时的数据。
- 在读表上进行合并的目的是直接在DFS之上支持接近实时的处理,而不是将数据复制到可能无法处理数据量的系统。
以一次数据的insert和updata为例。我利用hudi在插入一次mor格式的表保存hive和hdfs,修改数据对表进行更新updata,在hadoop的50075端口中浏览文件,可以看到如下图
第一行数据就是生成的log,在进行查询读取时,会将log与数据文件合并读取,提供实时的数据。
3、COW和MOR对比
COW | MOR | |
---|---|---|
数据延迟 | Higher | Lower |
查询延迟 | Lower | Higher |
更新成本 | Higher | Lower |
Parquet文件大小 | Smaller | Larger |
写放大 | Higher | Lower |