hive on spark 读取中文乱码

问题描述

集群默认计算引擎是 hive ,这两天自己试了一下 hive on spark 发现一个奇怪现象,首先 hive 引擎中文做简单查询或者聚合查询都正常,使用 spark 引擎简单查一个表的中文字段也没事,但是只要对 中文字段进行 group by 操作就乱码了

问题解决

在开启 spark session 后 加两个设置就好了

set spark.executor.extraJavaOptions="-Dfile.encoding=utf-8";
set spark.driver.extraJavaOptions="-Dfile.encoding=utf-8" ;

再次测试 spark session 内执行有关中文的任何查询不再出现乱码问题。

上一篇:离线环境安装使用 Ansible


下一篇:Linux Shell综合:备份数据库