基于EMR离线数据分析

1.登录集群
使用Firefox ESR浏览器和阿里云分配子账号的登录阿里云
登录成功后进入阿里云控制台首页,点击左侧菜单,输入关键词“emr”,点击 E-MapReduce 进入管理页面
在E-MapReduce控制台页面上方,选择资源所在地域。例如下图中,地域切换为华东2(上海)
在E-MapReduce控制台页面的集群列表区域,单击您的集群名/ID
集群基础信息页面的主机信息区域,复制MASTER的节点的公网ip地址。
打开远程桌面终端LxShell
在终端中输入连接命令ssh root@[ipaddress]
输入 yes
同意继续后将会提示输入登录密码

2.上传数据到HDFS
使用hdfs dfs -mkdir -p /data/student 命令创建HDFS目录
创建u.txt文件并上传文件到hadoop文件系统:hdfs dfs -put u.txt /data/student。
查看文件:hdfs dfs -ls /data/student

3.使用hive创建表
登录hive数据库:hive
创建user表
CREATE TABLE emrusers ( userid INT, movieid INT, rating INT, unixtime STRING ) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' ;
从hadoop文件系统加载数据到hive数据表:LOAD DATA INPATH '/data/student/u.txt' INTO TABLE emrusers;

4.对表进行操作
查看5行表数据:select * from emrusers limit 5;
查询数据表中有多少条数据:select count(*) from emrusers;
查询数据表中评级最高的三个电影:select movieid,sum(rating) as rat from emrusers group by movieid order by rat desc limit 3;

上一篇:.Net Winform开发笔记(三) 谈谈自制控件


下一篇:限时免费 | 宜搭低代码培训课来了