一、需求
1:数据来源
豆瓣电影的评分数据
2:数据含义
{"movie":"电影id","rate":"打分"}
3:需求
统计出评分最高的TOP5电影出来,按照评分降序排序。
二、给出的原数据
文件名:电影评分记录.json
数据:
{"movie":"1193","rate":"3.8"}
{"movie":"661","rate":"3.4"}
{"movie":"914","rate":"4.5"}
{"movie":"3408","rate":"6.7"}
{"movie":"2355","rate":"5"}
{"movie":"1197","rate":"1.2"}
{"movie":"1287","rate":"6.3"}
{"movie":"2804","rate":"8"}
{"movie":"594","rate":"4.3"}
{"movie":"919","rate":"7.8"}
{"movie":"595","rate":"4"}
{"movie":"938","rate":"4.4"}
{"movie":"2398","rate":"6.5"}
{"movie":"2918","rate":"4.7"}
三、hql内置了两个处理json数据的函数
//查看这两个函数的用法
desc function get_json_object
desc function json_tuple
四、使用这两个函数解决需求
1.创建表,并导入数据
--1.创建表
create table t_movie(
json string
)row format delimited
--fields terminated by '' //如果 一行只有一个json就不用使用列分隔符了
--2.从Linux文件系统中导入数据到表中
load data local inpath '/opt/data/电影评分记录.json' into table t_movie
--3.查询表中的函数
select * from t_movie
2.使用get_json_object实现
--方法1
select get_json_object(t.json,'$.movie') movie, get_json_object(t.json,'$.rate') score
from t_movie t
order by (score) desc
limit 3
3.使用json_tuple实现
--方法2
select t2.*
from t_movie t1 lateral view json_tuple(t1.json, 'movie', 'rate') t2 as movie, rate
order by (rate) desc
limit 3
//lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
//lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。