Pig和Hive的对比

2023-08-20 16:25:34

Pig

Pig是一种编程语言，它简化了Hadoop常见的工作任务。Pig可加载数据、表达转换数据以及存储最终结果。Pig内置的操作使得半结构化数据变得有意义（如日志文件）。同时Pig可扩展使用Java中添加的自定义数据类型并支持数据转换。

Hive

Hive在Hadoop中扮演数据仓库的角色。Hive添加数据的结构在HDFS（hive superimposes structure on data in HDFS），并允许使用类似于SQL语法进行数据查询。与Pig一样，Hive的核心功能是可扩展的。

什么时候用Pig？

当你需要处理非格式化的分布式数据集时，如果想充分利用自己的SQL基础，可以选择Pig。使用Pig你无需自己构建MapReduce任务，有SQL背景的话学习起来比较简单，开发速度也很快。

什么时候用Hive？

有时我们需要收集一段时间的数据来进行分析，而Hive就是分析历史数据绝佳的工具。要注意的是数据必须有一定的结构才能充分发挥Hive的功能。用Hive来进行实时分析可能就不是太理想了，因为它不能达到实时分析的速度要求(实时分析可以用HBase，Facebook用的就是HBase)。

注意：

尽管Pig性能强劲，要使用它开发人员必须掌握SQL之外的新知识，而Hive则与SQL非常相像。尽管Hive查询语言HQL的命令有所局限，它还是取得了一定的成功。Hive为MapReduce提供了优秀的开源实现，它在分布式数据处理的同时避免了SQL对于数据存储的局限。

所以现在使用Hive比较多，基本上很少用Pig！！！

码农公寓