Hudi特性之表格式 (1)

在大数据中扮演重要角色的Hudi,其表格式和查询方式有何特殊之处?他是怎样进行数据的插入更新处理?
首先,Hudi有两种处理数据的表格式:
COW(Copy On Write)
MOR(Merge On Read)


1、COW(Copy On Write)

  • 支持快照查询,增量查询
  • 处理数据过程:仅使用专门的列式文件存储数据(如:parquet)。 在写入和更新过程中执行同步合并,简单地更新版本和重写文件。
  • 因为每次更新操作都会重写整个文件,存在写放大的问题。
    Hudi特性之表格式 (1)

2 、MOR(Merge On Read)

  • 支持快照查询,增量查询,读优化查询
  • 使用柱状(如parquet) +基于行(如avro)的文件格式组合存储数据。
  • 处理数据过程:每次upsert时会生成一个delta日志,将每个文件的更新数据存储到日志中,在查询时将日志应用到每个文件 ID 来支持快照查询。
  • 因此,这种表类型会平衡读和写放大,以提供接近实时的数据。
  • 在读表上进行合并的目的是直接在DFS之上支持接近实时的处理,而不是将数据复制到可能无法处理数据量的系统。
    Hudi特性之表格式 (1)
    以一次数据的insert和updata为例。我利用hudi在插入一次mor格式的表保存hive和hdfs,修改数据对表进行更新updata,在hadoop的50075端口中浏览文件,可以看到如下图
    Hudi特性之表格式 (1)
    第一行数据就是生成的log,在进行查询读取时,会将log与数据文件合并读取,提供实时的数据。

3、COW和MOR对比

COW MOR
数据延迟 Higher Lower
查询延迟 Lower Higher
更新成本 Higher Lower
Parquet文件大小 Smaller Larger
写放大 Higher Lower
上一篇:数据湖之Hudi(6):Hudi快速体验使用(上)


下一篇:CMake快速入门