Hive学习 系列博客

博客来源,https://blog.csdn.net/youfashion/article/category/6190828,感谢博主。

学习博主的代码风格。

Hive

1)Hive 是建立在Hadoop (HDFS/MR)上的用于管理和查询结果化/非结构化的数据仓库
2)一种可以存储、查询和分析存储在Hadoop 中的大规模数据的机制;
3)Hive 定义了简单的类SQL 查询语言,称为HQL,它允许熟悉SQL 的用户查询数据;
4)允许用Java开发自定义的函数UDF来处理内置无法完成的复杂的分析工作;
5)Hive没有专门的数据格式(分隔符等可以自己灵活的设定);

ETL的流程(Extraction-Transformate-Loading):

将关系型数据库的数据抽取到HDFS上,hive作为数据仓库,经过hive的计算分析后,将结果再导入到关系型数据库的过程。

上一篇:Java Dns Cache Manipulator


下一篇:使用jupyter搭建golang的交互式界面:类似于ipython;jupyter还可以使用spark或者结合机器学习