开发者学堂课程【大数据实时计算框架 Spark 快速入门:hive 数据库,yarn 集群测试,SQL 分组取 topN1】学习笔记,与课程紧密联系,让用户快速学习知识。
课程地址:https://developer.aliyun.com/learning/course/100/detail/1714
hive 数据库,yarn 集群测试,SQL 分组取 topN1
内容介绍:
一、操作细则
一、操作细则
① JDBC 的数据,可以从 JDBC 存数据, hive 的数据,要配置起来,把 hive里面的 hive_site,xml 放到 spark/conf/ 目录下。
②如果放在其他里面则会出现问题,配置 hive 的时候在 conf 下面有一个hive_site ,里面有 JDBC 你的数据库连接地址的 hive_site ,里面有地址,有用户名密码,还有需要 driver 的驱动,
③将它拷贝过去,cp conf/hive_site,xml/spark_1.6._bin_hadoop2.4/conf/,在conf里面都有 hive_con_site。
④然后启动 hive ,确保 hive 可以正常启动。
⑤首先启动 mysql,hive 要读取数据,那么一定要保证启动HDFS。
⑥那么启动 hive ,就相当于将下面两个步骤验证了一下,在窗口确定可以正常连上就可以了。
⑦如果你所在的客户端没有把 hive_site,xml 发送到每一个 spark 所在的 conf目录下的话,就必须—— file/conf/hive_site.xml ,需要明白你的文件在那个地方,将一些固定模式执行, JAVAsparkcontext 是sparkcontext 的一个子类,初始化 hivecontext。
⑧再然后打包运行。
⑨如果你所在的客户端没有把 hive_site,xml 发送到每一个 spark 所在的 conf目录下的话,
就必须—— files./conf/hive,found both spark.executor.extraclasspath and spark_classpath.use only the former. 出现这个错误,你就把 spark_env sh 里面的注释掉。966227