环境条件及测试套件准备
- Hdp-3.0.0
- Hive-3.1.0
- Hdfs-3.1.0
- Maven,如果未安装在tpcds-build时,自动安装
- 下载hive -testbench-hdp3.zip ,根据自己安装的环境下载对应的测试套件 https://github.com/hortonworks/hive-testbench
编译并打包相应的数据生成器
# unzip hive -testbench-hdp3.zip
# cd hive -testbench-hdp3
# ./tpcds-build.sh
生成数据和查询sql
# su - hdfs
$ export FORMAT=rcfile
$ bash -x tpcds-setup.sh 2 /data/tpcds-generate
FORMAT=rcfile:代表数据文件格式
2:代表生成10G数据
/data/tpcds-generate:代表生成数据的目录
上面用了hdfs去执行tpcds-setup.sh文件,会导致无法写入makefile文件,报错如下:
所以解压的hive -testbench-hdp3目录权限尽量给大一些。
最终成功的结果如下:
生成数据的案例
构建1 TB的TPC-DS数据: ./tpcds-setup.sh 1000
构建1 TB的TPC-H数据: ./tpch-setup.sh 1000
构建100 TB的TPC-DS数据: ./tpcds-setup.sh 100000
构建30 TB文本格式的TPC-DS数据: FORMAT=textfile ./tpcds-setup 30000
构建30 TB RCFile格式的TPC-DS数据: FORMAT=rcfile ./tpcds-setup 30000
测试查询执行
# su - hive
$ hive
hive> use use tpcds_bin_partitioned_orc_4;
hive> source query12.sql;