最近老师叫做一个大数据的项目,虽然对大数据云计算不是很了解,但好像很牛逼的样子。本着学习的态度还是决定要好好坐下去。这个分类下的文章就作为项目的开发记录吧。
第一周计划:了解Hadoop和MapReduce
Hadoop安装笔记(环境为Linux mint14):
1.首先在网上找一篇博客,一不小心找到了Hadoop实战,说的还真全面!(也可参考官方文档http://hadoop.apache.org/docs/r1.0.4/cn/quickstart.html)
2.先安装java JDK1.6或更高版本,因为Hadoop是基于java的,还要安装ssh,因为Hadoop需要通过ssh来启动salve列表中各台主机的守护进程。
安装命令:sudo apt-get install XXX
用java -version和ssh -version来验证是否安装成功。
3.配置ssh免密码登录。在用户文件夹下找到.ssh文件夹(用ls -a 查看,没有就新建一个)输入命令:
ssh-keygen -t dsa -P '' -f ~/.ssh/id_dsash-keygen代表生成密钥;-t(注意区分大小写)表示指定生成的密钥类型;dsa是dsa密钥认证的意思,即密钥类型;-P用于提供密语;-f指定生成的密钥文件。在Ubuntu中,~代表当前用户文件夹
cat ~/.ssh/id_dsa.pub >> ~/.ssh/authorized_keys这段话的意思是把公钥加到用于认证的公钥文件中,这里的authorized_keys是用于认证的公钥文件。然后再输入下列命令测试:
ssh localhost
输入yes如果提示welcome则没问题。
4.下载安装Hadoop。地址http://apache.claz.org/hadoop/common/,(注意要下那个100多M的,不要下src源文件)
网上有hadoop配置教程,都说要改conf文件夹下的东西,但是在新版本中路径变了,没有conf文件夹。便于学习我用的是1.12版本。详细配置就不说了。
5.初始化
配置好后先格式化hadoop文件系统hdfs,进入hadoop/bin,执行
sudo ./hadoop namenode -format
如果找不到hadoop命令就给它加一个可执行权限(chmod 777 hadoop)。
启动hadoop:sudo ./start-all.sh
要求输入yes和系统密码。
然后在浏览器输入localhost:50030和localhost:50070分别验证MapReduce页面和hdfs页面
错误记录:
执行bin/hadoop namenode -format时有许多地方namenode写成了NameNode,LZ报错了,要用小写,真尴尬