hql处理json格式的文件

一、需求

1:数据来源
    豆瓣电影的评分数据
2:数据含义
    {"movie":"电影id","rate":"打分"}
3:需求
    统计出评分最高的TOP5电影出来,按照评分降序排序。

二、给出的原数据

文件名:电影评分记录.json
数据:

{"movie":"1193","rate":"3.8"}
{"movie":"661","rate":"3.4"}
{"movie":"914","rate":"4.5"}
{"movie":"3408","rate":"6.7"}
{"movie":"2355","rate":"5"}
{"movie":"1197","rate":"1.2"}
{"movie":"1287","rate":"6.3"}
{"movie":"2804","rate":"8"}
{"movie":"594","rate":"4.3"}
{"movie":"919","rate":"7.8"}
{"movie":"595","rate":"4"}
{"movie":"938","rate":"4.4"}
{"movie":"2398","rate":"6.5"}
{"movie":"2918","rate":"4.7"}

三、hql内置了两个处理json数据的函数

//查看这两个函数的用法
desc function get_json_object
desc function json_tuple

hql处理json格式的文件
hql处理json格式的文件

四、使用这两个函数解决需求

1.创建表,并导入数据

--1.创建表
create table t_movie(
	json string
)row format delimited
--fields terminated by '' //如果 一行只有一个json就不用使用列分隔符了

--2.从Linux文件系统中导入数据到表中
load data local inpath '/opt/data/电影评分记录.json' into table t_movie 
--3.查询表中的函数
select * from t_movie 

hql处理json格式的文件
2.使用get_json_object实现

--方法1
select get_json_object(t.json,'$.movie') movie, get_json_object(t.json,'$.rate')  score
from t_movie t
order by (score) desc
limit 3

3.使用json_tuple实现

--方法2
select t2.* 
from t_movie t1 lateral view json_tuple(t1.json, 'movie', 'rate') t2 as movie, rate
order by (rate) desc
limit 3

//lateral view用于和split, explode等UDTF一起使用,它能够将一行数据拆成多行数据,在此基础上可以对拆分后的数据进行聚合。
//lateral view首先为原始表的每行调用UDTF,UTDF会把一行拆分成一或者多行,lateral view再把结果组合,产生一个支持别名表的虚拟表。

hql处理json格式的文件

上一篇:Using side features: feature preprocessing


下一篇:python day03