Spark connect to Database

Cannect to Cassandra:

用spark-cassandra-connector, 注意spark,cassandra和connector的版本要配套,Cassandra至少要版本2以上

use this blog example:

https://www.codementor.io/data-science/tutorial/installing-cassandra-spark-linux-debian-ubuntu-14

用sbt编译的方法搞定spark连接cassandra

文件夹下建立test.sbt文件

name:="spark sameple"  (任意)

version:="1.4"

scalaVersion:="2.10.1"

libraryDependencies:="org.apache.spark" %% "spark-core" %"1.4.0"

libraryDependencies:="com.datastax.spark"%%"spark-cassandra-connector"%"1.4.0-M3"

建立src/main/scala目录

运行sbt,第一次会等很久,下载一些包

出来 > 号就成功

运行complie

运行package

出来jar包地址

在spark端运行

./spark-submit --class "SparkTest" (包里的object名)  --master spark://Master.Hadoop:7077 --jars /usr/spark/lib/spark-cassandra-connector-assembly-1.4.0-SNAPSHOT.jar /home/... /*.jar

results come out~

会有multiple jar definition的问题,不用管。

exception in thread main com/datastax/spark/connector/rdd/reader/RowReaderFactory

这种错误解决办法就是把库文件加入 --jars 解决

上一篇:CSS权威指南之css声明,伪类,文本处理--(简要笔记一)


下一篇:Linux下C/C++程序开发管理(makefile)