Hive简介 | 体系结构

2024-11-08 11:50:27

Hive简介

Hive 是一个框架，可以通过编写sql的方式，自动的编译为MR任务的一个工具。
在这个世界上，会写SQL的人远远大于会写java代码的人，所以假如可以将MR通过sql实现，这个将是一个巨大的市场，FaceBook就这么干。（脸书）
FaceBook --> Meta (元宇宙) --> 社交网站（校内网）
在大数据中，发展趋势：所有的技术全部都变为SQL。

1、Hive是一个数据仓库工具
2、可以将数据加载到表中，编写sql进行分析
3、底层依赖Hadoop，所以每一次都需要启动hadoop(hdfs以及yarn)
4、Hive的底层计算框架可以使用MR、也可以使用Spark、TEZ
5、Hive不是数据库，而是一个将MR包了一层壳儿。类似于一个中介。

Hive天然的就是当做数据仓库使用的。什么是数据仓库?

数据仓库：数据的仓库，一般只要能存数据的软件都可以当做数据仓库。

比如：开了一个超市，必须有一个仓库，这个仓库是不是可大可小。以前数据量特别小的时候，一般都使用Oracle当做数据仓库，现在企业中一般都使用大数据技术中的Hive或者跟Hive类似的技术当做数据仓库。

普通的仓库：一般也是分类的，比如食品区、衣服区、电子产品区

数据仓库：也是需要搭建的（分层），方便使用者从仓库中快速的获取想要的数据。仓库搭建的好不好，就叫做建模。

体系结构

注意：

- 包含*的全表查询，比如select * from table 不会生成MapRedcue任务

- 包含*的limit查询，比如select * from table limit 3 不会生成MapRedcue任务

码农公寓

Hive简介

体系结构

相关文章