dremio 提供了几个方便的sql 命令,可以管理虚拟数据集以及物理数据源,还有就是进行数据集元数据的刷新,反射数据的处理
创建虚拟数据集
CREATE VDS <VIRTUAL-DATASET-PATH> AS <SQL-QUERY>
开启数据反射
ALTER VDS <dataset> SET ENABLE_DEFAULT_REFLECTION = TRUE | FALSE
替换&修改虚拟数据集
CREATE OR REPLACE VDS <VIRTUAL-DATASET-PATH> AS <SQL-QUERY>
删除虚拟数据集
DROP VDS <VIRTUAL-DATASET-PATH>
删除数据集元数据
ALTER PDS <PHYSICAL-DATASET-PATH> FORGET METADATA
刷新物理元数据信息
ALTER PDS <PHYSICAL-DATASET-PATH> REFRESH METADATA
[AVOID PROMOTION | AUTO PROMOTION]
[FORCE UPDATE | LAZY UPDATE]
[MAINTAIN WHEN MISSING | DELETE WHEN MISSING]
说明
创建修改虚拟数据集还有刷新物理数据集元数据都是比较有用的,其中刷新元数据以及自动提升数据格式很有用(比如我们集成spark的delta lake 可能需要自动提升以及刷新元数据),参考命令(刷新,提升,更新)
ALTER PDS "delta-lake"."delta-lake".dalongdemo4 REFRESH METADATA AUTO PROMOTION LAZY UPDATE
同时不止是关于dremio 以及delta lake,集成文件,或者数据源变动的都是需要类似的处理的
参考资料
https://docs.dremio.com/sql-reference/sql-commands/datasets/
https://docs.dremio.com/sql-reference/sql-commands/acceleration/