sudo -u hdfs hdfs balancer -threshold 5
其中5为threshold_value,表示一个DataNode的磁盘使用可以和其他节点相比的偏移量。threshold_value越小,均衡时间越长。
如果你不指定threshold_value,默认值是20%。例如,如果这个集群的磁盘使用率是40%,threshold_value为20%会使得所有机器的磁盘使用率在 20%和60%之间。如果一个节点的使用率在20%和60%之间,它上面的块不会再被移动。
建议设置threshold_value为5
均衡时间也会受到网络带宽的影响。默认均衡可以使用的带宽为1MB/s,你可以使用下面的命令调整。建议设为64MB。
sudo -u hdfs hdfs dfsadmin -setBalancerBandwidth 67108864
清除OushuDB metadata缓存
使用如下命令清除OushuDB metadata缓存,可以加速缓存的更新。
postgres=# select gp_metadata_cache_clear();
(可选)针对HASH分布的表的处理
设置default_hash_table_bucket_number
default_hash_table_bucket_number为创建hash分布的表时默认使用的bucket数。建议按照下表进行配置。
重分布Hash分布的表
如果你想是的Hash分布的表可以使用到扩容后的计算能力,你可以使用ALTER TABLE或者CREATE TABLE AS来重新分布。