Cannect to Cassandra:
用spark-cassandra-connector, 注意spark,cassandra和connector的版本要配套,Cassandra至少要版本2以上
use this blog example:
https://www.codementor.io/data-science/tutorial/installing-cassandra-spark-linux-debian-ubuntu-14
用sbt编译的方法搞定spark连接cassandra
文件夹下建立test.sbt文件
name:="spark sameple" (任意)
version:="1.4"
scalaVersion:="2.10.1"
libraryDependencies:="org.apache.spark" %% "spark-core" %"1.4.0"
libraryDependencies:="com.datastax.spark"%%"spark-cassandra-connector"%"1.4.0-M3"
建立src/main/scala目录
运行sbt,第一次会等很久,下载一些包
出来 > 号就成功
运行complie
运行package
出来jar包地址
在spark端运行
./spark-submit --class "SparkTest" (包里的object名) --master spark://Master.Hadoop:7077 --jars /usr/spark/lib/spark-cassandra-connector-assembly-1.4.0-SNAPSHOT.jar /home/... /*.jar
results come out~
会有multiple jar definition的问题,不用管。
exception in thread main com/datastax/spark/connector/rdd/reader/RowReaderFactory
这种错误解决办法就是把库文件加入 --jars 解决