http://cwiki.apachecn.org/pages/viewpage.action?pageId=1540344
Cloudera 简介
Cloudera 提供一个可扩展、灵活、集成的平台,可用来方便地管理您的企业中快速增长的多种多样的数据。业界领先的 Cloudera 产品和解决方案使您能够部署并管理 Apache Hadoop 及其相关项目、操作和分析您的数据以及保护数据的安全。
Cloudera 提供下列产品和工具 :
- CDH — Cloudera 分发的 Apache Hadoop 和其他相关开放源代码项目,包括 Impala 和 Cloudera Search。CDH 还提供安全保护以及与许多硬件和软件解决方案的集成。
- Cloudera Impala — 一种 MPP(大规模并行处理) SQL 引擎,用于交互式分析和商业智能。其高度优化的体系结构使它非常适合用于具有联接、聚合和子查询的传统 BI 样式的查询。它可以查询来自各种源的 Hadoop 数据文件,包括由 MapReduce 作业生成的数据文件或加载到 Hive 表中的数据文件。YARN 资源管理组件让 Impala 能够共存于使用 Impala SQL 查询并发运行批处理工作负载的群集上。您可以通过 Cloudera Manager 用户界面管理 Impala 及其他 Hadoop 组件,并通过 Sentry 授权框架保护其数据。
- Cloudera Search — 提供近实时访问已存储的数据或者摄取数据到 Hadoop 以及 HBase 中去。Search 提供了近实时的索引,批量索引,全文检索和 Drill-Down(下钻) 的导航,以及一个简单的,全文检索的接口,需要一些 NoSQL 或者编程基础(技能)。完全集成的数据处理平台,Search 使用了在 CDH 中灵活的,可扩展的以及可靠的存储系统。这样不再需要在基础设施层或者业务层移动大量的数据了,也不需要产生新的任务。
- Cloudera Manager — 一个复杂的应用程序,用于部署、管理、监控您的 CDH 部署并诊断问题。Cloudera Manager 提供 Admin Console,这是一种基于 Web 的用户界面,使您的企业数据管理简单而直接。它还包括 Cloudera Manager API,可用来获取群集运行状况信息和度量以及配置 Cloudera Manager。
- Cloudera Navigator — CDH 平台的一种端到端数据管理工具。Cloudera Navigator 使管理员、数据经理和分析师能够了解 Hadoop 中的大量数据,以及简化了存储和密钥的管理。Cloudera Navigator 中强大的审核、数据管理、沿袭管理、生命周期管理和密钥管理使企业能够遵守严格的法规遵从性和法规要求。
本入门指南提供 Cloudera Manager、CDH 和 Cloudera Navigator 的常规概述。本指南还包括有关 Cloudera 产品的常见问题,并说明如何获得支持、报告问题和接收有关更新和新版本的信息。
文档概览
以下文档指南将包含在 Cloudera 文档集中 :
指南 |
说明 |
---|---|
Cloudera 简介 | Cloudera 提供一个可扩展、灵活、集成的平台,可用来方便地管理您的企业中快速增长的多种多样的数据。业界领先的 Cloudera 产品和解决方案使您能够部署并管理 Apache Hadoop 和相关项目、操作和分析您的数据以及保护数据的安全。 |
Cloudera 发行说明 | 本指南包含面向安装人员和管理员的版本和下载信息。它包括发行说明以及有关版本和下载的信息。该指南还提供一个版本列表,显示哪个 Cloudera Manager、CDH 以及(如果适用)Cloudera Search 和 Cloudera Impala 版本支持产品的哪个主要和次要版本。 |
Cloudera 快速入门指南 | 本指南介绍如何快速安装 Cloudera 软件并为概念证明 (POC) 或开发创建初始部署。它介绍如何下载和使用 QuickStart 虚拟机,它会提供开始基本安装所需的所有内容。它还介绍如何在包含 4 个主机的群集上创建 Cloudera Manager 5、CDH5 和托管服务的全新安装。快速入门安装仅应用于演示和 POC 应用程序,不推荐用于生产。 |
Cloudera 安装和升级 | 本指南提供了 Cloudera 生产部署的软件要求和安装信息以及升级过程。本指南还提供 Cloudera 软件的特定端口信息。 |
Cloudera 管理 | 本指南介绍如何配置和管理 Cloudera 部署。管理员可管理资源、可用性以及备份和恢复配置。此外,本指南还介绍了如何实施高可用性,并讨论了集成。 |
Cloudera 数据管理 | 本指南介绍如何使用 Cloudera Navigator 执行数据管理。数据管理活动包括审核对驻留在 HDFS 和 Hive Metastore 中的数据的访问、审阅和更新元数据以及发现数据对象的沿袭。 |
Cloudera 操作 | 本指南介绍如何监控 Cloudera 部署的运行状况和诊断问题。您可以获得度量和使用情况信息,并查看处理活动。本指南还介绍如何检查日志和报告来解决群集配置和操作的问题以及监控法规遵从性。 |
Cloudera 安全 | 本指南适用于想要使用数据加密、用户身份验证和授权技术保护群集的系统管理员。本主题还提供有关 Hadoop 安全计划的信息,并向您介绍如何设置 Gateway 来限制访问。 |
Apache Impala(incubating)- 交互式 SQL 查询 | 本指南介绍了 Cloudera Impala、其功能和优点以及它如何与 CDH 配合工作。本主题介绍 Impala 概念,描述如何规划 Impala 部署,并为新用户提供教程以及描述方案和专用功能的更高级教程。您还会找到语言参考、性能优化、有关使用 Impala shell 的说明、故障排除信息以及常见问题。 |
Cloudera Search 指南 | 本指南介绍了怎么样去配置和使用 Cloudera Search,本主题包括一些像 ETL(抽取,转换,加载),搭建高可用以及故障排除。 |
Spark 指南 | 本指南描述了 Apache Spark,一种常规的分布式计算框架,在批处理和交互式处理上提供了很高的性能。本指南提供了 Spark 应用的教程,比如怎样去开发并且运行 Spark 应用,以及如何将 Spark 与其它 Hadoop 组件的搭配使用。 |
Cloudera 术语 | 本指南包含 Cloudera 组件的术语的词汇表。 |