【笔记】Apache Iceberg 原理介绍 | 阿里云 x StarRocks社区联合Meetup

2023-11-05 17:36:10

Iceberg是为了解决Hive上云诞生的一个工具

强烈推荐看下这篇学习日志，看下iceberg如何读写，实际如何使用？同时，了解下Hive的架构

Apache Iceberg 学习日志 https://xie.infoq.cn/article/61a82b983ef97c3e05a6e7d82
Hive架构，Metadata-store是什么？存储了哪些信息? 有什么优化点？

Hive挑战

上云
- HMS依赖Mysql，Mysql做分布式不方便；
- HMS抽象不清晰，Schema/表统计信息/分区信息等边界不清晰;
- 读读mysql获取分区信息，再跨shard去list，成本太高
- 写？这块没太听懂，GET不到点
- 要求1.支持多种存储格式(弹性低廉稳定) 2. 统一Table语义(支持对象存储) 3. 计算引擎互通
近实时数仓
- 入仓，无法接受分钟级，对HMS是一种压力
- 出仓，不支持增量数据查询
- 要求: 1.分钟级别入仓 2. 更高效索引加速数据分析，查询响应要快 3. 增量出湖出仓，下游ETL响应更快
变更
- 字段变更对读端影响
- 分区字段变更: 月粒度转日粒度