1,HDFS是hadoop的分布式文件系统,用于数据的存储和管理。
2,mapreduce是分布式计算框架,用于处理和计算大量的数据。
3, hive是基于hadoop的数据仓库,用于将sql转化为mapreduce任务在hadoop上执行。
4,hbase是分布式列存数据库,可以让大规模数据更加随机,在实时读写访问的同时,mapreduce可以处理保存在hbase里的数据,使得数据存储和并行计算有了更好的结合。
5,zookeeper是分布式协作服务,解决了分布式环境下的数据管理问题。
6,sqoop是数据同步工具,用于传统数据库和hadoop之间数据的传输。
7,pig是基于hadoop的数据流系统,通常用于离线分析,它定义了一种数据流语言-pig latin,可以将脚本转换为mapreduce任务在hadoop上执行。
8,mahout是数据挖掘算法库,创建了一些可扩展的机器学习领域经典算法的实现,让开发者们可以更快速更方便地创建应用程序。
9,flume是日志收集工具,具有分布式,高可靠,高容错,易于定制和扩展的特点。它将数据从产生,传输,处理并写入目标的路径的过程抽象为数据流,在具体的数据流中,数据源支持在flume中定制数据发送方,从而支持收集各种不同协议数据。
10,yarn是一种新的 Hadoop资源管理器,它是一个通用资源管理系统,可为上层应用提供统一的资源管理和调度,它的引入为集群在利用率、资源统一管理和数据共享等方面带来了巨大好处。