Apache Hive--join 操作| 学习笔记

开发者学堂课程【大数据 Hive 教程精讲Apache Hive--join操作】学习笔记,与课程紧密联系,让用户快速学习知识。

课程地址https://developer.aliyun.com/learning/course/90/detail/1379


Apache Hive--join操作

 

Hive join

Hive 中除了支持和传统数据库中一样的内关联、左关联、右关联、全关联,还支持LEFTSEMI JOIN 和 CROSS JOIN,但这两种 JOIN 类型也可以用前面的代替。

Hive支持等值连接(a.id=b.id),不支持非等值(a.id>b.id)的连接,因为非等值连接非常难转化到 map/reduce 任务。另外,Hive 持多2个以上表之间的join。

 

写 join 查询时,需要注意几个关键点:

join 时,每次 map/reduce 任务的逻辑;

reducer会缓存join序列中除了最后一个表的所有表的记录,再通过最后一个表将结果序列化到文件系统。这一实现有助于在 reduce 端减少内存的使用量。实践中,应该把最大的那个表写在最后(否则会因为缓存浪费大量内存)。

LEFT,RIGHT 和 FULL OUTER 关键字用于处理 join 中空记录的情况

SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key)

对应所有a表中的记录都有一条记录输出。输出的结果应该是 a.val,b.val,当a.key=b.key时,而当 b.key 中找不到等值的 a. key 记录时也会输出:

a. val,NULL

Apache Hive--join 操作| 学习笔记

Apache Hive--join 操作| 学习笔记**hive 中的特别 join

select * from a left semi join b on a.id = b.id;

Apache Hive--join 操作| 学习笔记

相当于

select a.id,a.name from a where a.id in (select b.id from b);​​在hive中效率极低

select a.id, a.name from a join b on (a.id = b.id);

select * from a inner join b on a.id=b.id;

cross join (##​​慎用)

返回两个表的笛卡尔积结果,不需要指定关联键

select a.*,b.* from a cross join b;​​

上一篇:Apache Hive--安装部署--内置 derby 版以及缺陷| 学习笔记


下一篇:Apache Hive--安装部署-mysql 版安装| 学习笔记