通过thriftserver的beeline/jdbc等方式连接到SparkSQL

thriftserver和beeline的简单配置和使用
启动thriftserver: 默认端口是10000 ,可以修改
$ ./${SPARK_HOME}/sbin/start-thriftserver.sh --master local[2] --jars ~/software/mysql-connector-java-5.1.27-bin.jar
同样需要通过 --jars 传入mysql驱动
启动beeline

beeline -u jdbc:hive2://localhost:10000 -n hadoop 

hadoop为用户名 端口和前面保持一致

修改thriftserver启动占用的默认端口号:

./start-thriftserver.sh  \
--master local[] \
--jars ~/software/mysql-connector-java-5.1.-bin.jar \
--hiveconf hive.server2.thrift.port=

连接14000上的thriftserver

beeline -u jdbc:hive2://localhost:14000 -n hadoop

thriftserver和普通的spark-shell/spark-sql有什么区别?
使用thriftserver后,spark-shell、spark-sql都是一个spark application;
使用thriftserver后,不管你启动多少个客户端(beeline/code),永远都是一个spark application,解决了一个数据共享的问题,多个客户端可以共享数据。
使用jdbc的方式连接
首先需要在pom.xml文件中添加hive-jdbc的依赖

   <!--添加hive-jdbc依赖-->
<dependency>
<groupId>org.spark-project.hive</groupId>
<artifactId>hive-jdbc</artifactId>
<version>1.2.</version>
</dependency>

1.开发示例代码,这里假设已经启动了thriftserver的14000端口

简单测试 try catch就不写了

import java.sql.DriverManager
/**
* @Description: 使用JDBC的连接sparkSQL
*/
object SparkSQLThriftServerApp { def main(args: Array[String]): Unit = { Class.forName("org.apache.hive.jdbc.HiveDriver") val conn = DriverManager.getConnection("jdbc:hive2://localhost:14000","xiangcong","")
val pstmt = conn.prepareStatement("select empno, ename, sal from emp")
val rs = pstmt.executeQuery() while (rs.next()) {
println("empno:" + rs.getInt("empno") +
" , ename:" + rs.getString("ename") +
" , sal:" + rs.getDouble("sal"))
} rs.close()
pstmt.close()
conn.close() }
}
上一篇:更优雅的方式: JavaScript 中顺序执行异步函数


下一篇:浏览器中 F12 功能的简单介绍