写这篇文章的目的是总结自己学习大数据的经验,以为自己走了很多弯路,从迷茫到清晰,真的花费了很多时间,希望这篇文章能帮助到后面学习的人。
一、配置思路
安装linux虚拟机--->创建三台虚拟机--->配置Hadoop环境--->配置zookeeper--->配置HBase--->配置mysql--->配置hive--->配置sqoop
上面的过程只是简要的,中间还有一些小的配置过程,我没有写出,后面详细的配置过程中会提到。
二、详细配置过程
1.安装linux虚拟机--->创建三台虚拟机--->配置Hadoop环境--->配置zookeeper
查看b站视频【大数据开发入门】开课吧Hadoop从0到精通详解教程,2021年最新全套_哔哩哔哩_bilibili
跟着视频做到P16就可以了(windows的话从P6到P16)
视频里用到的资源可以添加评论区的公众号免费获取
2.配置HBase
查看b站视频尚硅谷HBase教程(hbase框架快速入门)_哔哩哔哩_bilibili
跟着视频做P7和P8就可以了
比较基础全面的HBase数据库增删改查常用命令操作 - 岁月如歌_九 - 博客园 (cnblogs.com)
3.配置mysql
查看b站视频2020年最新大数据教程|全程实操从零学习掌握HDP集群【黑马程序员】_哔哩哔哩_bilibili
跟着视频做P4就可以了
mysql-connecter下载 MySQL :: Download Connector/J
跟着视频做P8
4.配置hive
查看csdn(30条消息) Hadoop3系列——(四)Hive安装_qq_41622603的博客-CSDN博客
hive3.1.2下载 Apache Download Mirrors
5.配置sqoop
查看博客园Sqoop学习之路 (一) - 扎心了,老铁 - 博客园 (cnblogs.com)
三、配置过程可能遇到的问题
1.hbase shell命令进不去(30条消息) hbase shell命令进不去_lin443514407lin的专栏-CSDN博客
2.hive不嫩插入数据
报错是Permission denied
先退出hive;
在root里进入hadoop,命令是:su hadoop
然后再进入hive就可以插入了
3.为什么我不用Ambari配置
因为Ambari需要的运行内存太多了,我之前用Ambari配置过至少三次,不断调整内存,都失败了
所以电脑配置不够的(8g及以下的)还是老老实实按照这个方法配置吧
四、hive对数据进行操作
主要看后面几步(30条消息) 利用hive进行分析,将hive分析结果利用sqoop技术存储到mysql数据库中,可视化结果_ITwangxiaoxu的博客-CSDN博客
五、配置过程经验总结
在下载文件的时候csdn上都有,但是要钱,其实大可不必下载那样的,在一些教程下面都会有资源获取的途径
一些官网正式发布的文件只要搜下载XXX教程就可以知道怎么从官网下载了