Hive架构原理
- Hive是一个基于MapReduce的海量数据处理、分析工具,为我们利用Hadoop平台处理数据提供了一个简易途径
- 我们利用MapReduce对数据所做的事大部分与关系型数据库中的SQL语句所做的相同。Hive可以让我们用SQL的方式描述对数据如何处理,并解析SQL语句、转化成MapReduce job链、自动执行job链输出结果
- Hive严重依赖Hadoop,它所处理的数据必须放在HDFS中,所以HDFS的缺点会影响对Hive所实现功能的取舍
- 为了让用户以关系型数据库方式查询和计算数据,Hive提供了表结构管理服务
- Hive支持的基本数据类型与其他数据库差不多。Hive会在数据文件之外独立地保存其表结构以及表的其他属性(这些叫做元数据meta),这就是表结构管理服务所提供的,这个服务的名字叫做MetaStore(元数据存储)
- 通过Hive处理文件中的数据时需要先创建表,并将表语文件关联(当然要保证表的结构与文件中的数据是一致的,否则就会出错),然后就可以用SQL进行数据查询了