1、CDH 搭建Hadoop在安装之前(存储空间规划)

2022-05-27 16:49:05

Cloudera Manager的存储空间规划

最低要求角色： 完全管理员

Cloudera Manager跟踪许多后台进程中的服务，作业和应用程序的度量标准。所有这些指标都需要存储。根据组织的大小，此存储可以是本地或远程，基于磁盘的，也可以是数据库，由您或其他位置的其他团队管理。

大多数系统管理员都知道常见的位置 /var/log/并且这些地点需要有足够的空间。本主题可帮助您规划Cloudera Manager Server和Cloudera Management Service用于存储度量标准和数据的存储需求和数据存储位置。

未能规划Cloudera Manager Server和Cloudera Management Service的所有组件的存储需求可能会以下列方式对集群产生负面影响：

群集可能无法保留历史运营数据以满足内部要求。
群集可能会错过未在所需时间内收集或保留的关键审核信息。
管理员可能无法研究过去的事件或健康状况。
管理员在需要稍后引用或报告时可能没有历史MR1，YARN或Impala使用情况数据。
指标收集和图表可能存在差距。
由于将存储位置填充到100％的容量，群集可能会遇到数据丢失。这种事件的影响可能会影响许多其他组件。

这里的主题是您必须提前构建数据存储需求。您必须告知操作人员您的每个主机的关键数据存储位置，以便他们可以充分配置您的基础架构并进行适当的备份。确保在内部构建文档中记录发现的需求并运行书籍。

本主题介绍本地磁盘存储和RDBMS存储。这种区别既适用于存储规划，也适用于将角色从一个主机迁移到另一个主机，准备备份以及其他生命周期管理事件。

下表提供了有关每个Cloudera Management服务的详细信息，以使Cloudera Manager管理员能够制定适当的存储和生命周期规划决策。

Cloudera Manager Server

配置主题	Cloudera Manager服务器配置
默认存储位置	RDBMS：任何支持的RDBMS。有关更多信息，请参阅CDH和Cloudera Manager支持的数据库。磁盘： Cloudera Manager Server本地数据存储目录（command_storage_path）在Cloudera Manager Server配置为运行的主机上。Cloudera Manager使用此本地路径存储数据，包括命令结果文件。关键配置不存储在此位置。默认设置： /var/lib/cloudera-scm-server/
存储配置默认值，最小值或最大值	没有与此实体相关的直接存储默认值。
在何处控制数据保留或大小	Cloudera Manager Server数据库的大小取决于托管主机的数量以及已在群集中运行的离散命令的数量。要在Cloudera Manager Administration Console中配置保留命令的大小，请选择管理 > 设置，然后编辑以下属性：命令驱逐时代从数据库中逐出非活动命令的时间长度。默认是两年。
规模调整，规划和最佳实践	Cloudera Manager Server数据库是Cloudera Manager部署中最重要的配置存储。此数据库包含用于定义Cloudera Manager及其托管主机部署的群集，服务，角色和其他必要信息的配置。确保您执行Cloudera Manager Server数据库的定期，验证，远程存储的备份。

Cloudera管理服务

Cloudera管理服务 - 活动监视器配置

配置主题	活动监视器
默认存储位置	任何支持的RDBMS。有关更多信息，请参阅CDH和Cloudera Manager支持的数据库。
存储配置默认值/最小值/最大值	默认值：14天的MapReduce（MRv1）作业/任务
在何处控制数据保留或大小	您可以通过配置要保留的数据的天数或小时数来控制活动监视器的存储使用情况。清除旧数据。要在Cloudera Manager Administration Console中配置数据保留：去Cloudera管理服务。单击“ 配置”选项卡。选择Scope > Activity Monitor或Cloudera Management Service（服务范围）。选择Category > Main。找到以下属性或通过在“ 搜索”框中键入属性名称来搜索它们：清除这个时代的活动数据在活动监视器中，当数据达到此年龄时，清除有关MapReduce作业和聚合活动的数据。默认情况下，活动监视器会将有关活动的数据保留336小时（14天）。清除尝试此时代的数据在活动监视器中，当数据达到此年龄时，清除有关MapReduce的数据。由于尝试数据可能会占用大量数据库空间，因此您可能希望比活动数据更频繁地清除它。默认情况下，活动监视器会保留有关336小时（14天）尝试的数据。清除此时代的MapReduce服务数据要保留在活动监视器数据库中的过去服务级别数据的小时数，例如运行的总插槽数。默认设置是将数据保留336小时（14天）。单击“ 保存更改”以提交更改。
规模调整，规划和最佳实践	活动监视器仅监视MapReduce作业，而不监视YARN应用程序。如果您不再在群集中使用MapReduce（MRv1），则Cloudera Manager 5（或更高版本）或CDH 5（或更高版本）不需要活动监视器。 14天MapReduce活动所需的存储空间量可能差异很大，直接取决于群集的大小和使用MapReduce的活动级别。在确定群集中MapReduce活动的“稳定状态”和“突发状态”时，可能需要调整和重新调整存储量。例如，请考虑以下测试群集和用法：模拟的1000个主机群集，每个主机具有32个插槽每个活动200次尝试（任务）的MapReduce作业（作业）调整此群集的观察大小：每次尝试都需要10分钟才能完成。这种使用每天导致大约2万个工作，总尝试次数约为500万。对于7天的保留期，此活动监视器数据库需要200 GB。

Cloudera管理服务 - 服务监视器配置

配置主题	服务监视器配置
默认存储位置	/var/lib/cloudera-service-monitor/ 在配置Service Monitor角色的主机上运行。
存储配置默认值/最小值/最大值	10 GiB服务时间序列存储 1 GiB Impala查询存储 1 GiB YARN应用程序存储总计：约12 GiB（无最大值）
在何处控制数据保留或大小	通过配置可以使用的最大存储空间量来控制Service Monitor数据增长。要在Cloudera Manager Administration Console中配置数据保留：去Cloudera管理服务。单击“ 配置”选项卡。选择Scope > Service Monitor或Cloudera Management Service（服务范围）。选择Category > Main。找到`propertyName`属性或通过在“搜索”框中键入其名称来搜索它。时间序列存储专用于存储时间序列和运行状况数据的大致磁盘空间量。当商店达到其最大尺寸时，它会删除旧数据，以便为较新的数据腾出空间。磁盘使用率是近似值，因为存储仅在达到限制时才开始删除数据。请注意，Cloudera Manager将时间序列数据存储在多个不同的数据粒度中，并且这些粒度具有不同的有效保留期。服务监视器不仅将度量标准数据存储为原始数据点，还将其存储为十分钟，每小时，每六小时，每日和每周摘要数据点。原始数据占用分配的存储空间的大部分，每周摘要消耗最少。原始数据保留的时间最短，而每周汇总点不太可能被删除。选择Cloudera Manager中的Cloudera Management Service > Charts Library选项卡，以获取有关Service Monitor中如何使用空间的信息。这些预先构建的图表还显示有关保留的数据量和每个数据粒度所涵盖的时间窗口的信息。 Impala存储专用于存储Impala查询数据的大约磁盘空间量。当商店达到其最大尺寸时，它会删除旧数据，以便为较新的查询腾出空间。磁盘使用率是近似值，因为存储仅在达到限制时才开始删除数据。 YARN存储专用于存储YARN应用程序数据的大约磁盘空间量。当商店达到其最大尺寸时，它会删除旧数据，以便为较新的应用程序腾出空间。磁盘使用率是近似值，因为Cloudera Manager仅在达到限制时才开始删除数据。单击“ 保存更改”以提交更改。
规模调整，规划和最佳实践	服务监视器收集有关群集中已配置角色和服务的指标，还运行活动运行状况测试。无论闲置和使用期间如何，这些运行状况测试都会运行，因为它们始终相关。无论集群中的活动级别如何，服务监视器都会收集度量标准和运行状况测试结果。即使在空闲群集中，此数据也会继续增长。

Cloudera管理服务 - 主机监控

配置主题	主机监视器配置
默认存储位置	/var/lib/cloudera-host-monitor/ 在主机监视器角色配置为运行的主机上。
存储配置默认值/最小值/最大值	默认（和最小）：10 GiB主机时间序列存储
在何处控制数据保留或大小	通过配置可以使用的最大存储空间量来控制主机监视器数据增长。请参阅监视数据的数据存储。要在Cloudera Manager管理控制台中配置这些数据保留配置属性，请执行以下操作：去Cloudera管理服务。单击“ 配置”选项卡。选择Scope > Host Monitor或Cloudera Management Service（服务范围）。选择Category > Main。找到每个属性或通过在“搜索”框中键入其名称来搜索它。时间序列存储专用于存储时间序列和运行状况数据的大致磁盘空间量。当商店达到其最大尺寸时，它会删除旧数据，以便为较新的数据腾出空间。磁盘使用率是近似值，因为存储仅在达到限制时才开始删除数据。请注意，Cloudera Manager将时间序列数据存储在多个不同的数据粒度中，并且这些粒度具有不同的有效保留期。主机监视器不仅将度量数据存储为原始数据点，还将其存储为十分钟，一小时，六小时，一天和一周增量的摘要。原始数据占用分配的存储空间的大部分，每周摘要消耗最少。原始数据保留的时间最短，而每周汇总点不太可能被删除。有关如何在主机监视器中使用空间的信息，请参阅Cloudera Manager中的Cloudera Management Service > Charts Library选项卡。这些预先构建的图表还显示有关保留的数据量和每个数据粒度所涵盖的时间窗口的信息。单击“ 保存更改”以提交更改。
规模调整，规划和最佳实践	主机监视器收集有关主机级别项目的指标（例如：磁盘空间使用情况，RAM，CPU使用情况，交换等），并通知主机运行状况测试。无论群集中的活动级别如何，主机监视器都会收集度量标准和运行状况测试结果。即使在空闲群集中，此数据也会继续相当线性增长。

Cloudera管理服务 - 事件服务器

配置主题	事件服务器配置
默认存储位置	/var/lib/cloudera-scm-eventserver/ 在将事件服务器角色配置为运行的主机上。
存储配置默认值	保留了5,000,000个活动
在何处控制数据保留或最小/最大值	事件服务器使用的存储空间量受配置它可以保留多少个离散事件的影响。要在Cloudera Manager Administration Console中配置数据保留，去Cloudera管理服务。单击“ 配置”选项卡。选择Scope > Event Server或Cloudera Management Service（服务范围）。选择Category > Main。编辑以下属性：事件服务器存储中的最大事件数事件中事件服务器存储的最大大小。超过此大小时，将从最早的第一个开始删除事件，直到商店的大小低于此阈值单击“ 保存更改”以提交更改。
规模调整，规划和最佳实践	事件服务器是一个托管的Lucene索引，用于收集集群中发生的相关事件，例如运行状况测试的结果，日志条目与用于标识感兴趣的消息的一组规则匹配时创建的日志事件，并使其可用于搜索，过滤和其他行动。您可以在Cloudera Manager管理控制台的“ 诊断” >“ 事件”选项卡上查看和过滤事件。您还可以使用Cloudera Manager API轮询此数据。注意： Cloudera Management Service角色Alert Publisher通过定期轮询事件服务器以查找标记为使用SNMP或SMTP（S）发送的条目来获取其工作的所有内容。不讨论Alert Publisher，因为它没有自己的值得注意的存储要求。

Cloudera管理服务 - 报告管理器

配置主题	报告管理器配置
默认存储位置	RDBMS：任何支持的RDBMS。有关更多信息，请参阅CDH和Cloudera Manager支持的数据库。磁盘： /var/lib/cloudera-scm-headlamp/ 在报告管理器角色配置为运行的主机上。
存储配置默认值	RDBMS：没有可配置的参数来直接控制该数据集的大小。磁盘：没有可配置的参数来直接控制该数据集的大小。存储利用率不仅取决于HDFS fsimage的大小，还取决于HDFS文件路径的复杂性。较长的文件路径有助于提高空间利用率。
在何处控制数据保留或最小/最大值	Reports Manager在两个主要位置使用空间：Reports Manager主机及其支持数据库。Cloudera建议数据库位于与Reports Manager主机不同的主机上，以实现进程隔离和性能。
规模调整，规划和最佳实践	Reports Manager 从NameNode 下载fsimage（默认情况下每60分钟一次）并将其存储在本地以执行操作，包括索引HDFS文件系统结构。更多文件和目录会导致更大的fsimage，从而占用更多磁盘空间。 Reports Manager无法控制fsimage的大小。如果您的HDFS总使用量明显上升或者您在HDFS中添加了过长的路径，则可能需要重新访问并调整分配给Reports Manager的本地存储量。定期监视，查看和调整本地存储分配。

Cloudera Navigator

Cloudera Navigator - Navigator Audit Server

配置主题	Navigator Audit Server配置
默认存储位置	任何支持的RDBMS。有关更多信息，请参阅CDH和Cloudera Manager支持的数据库。
存储配置默认值	默认值：90天保留期
在何处控制数据保留或最小/最大	Navigator Audit Server存储使用情况通过配置可保留的数据天数来控制。清除任何旧数据。要在Cloudera Manager Administration Console中配置数据保留：去Cloudera管理服务。单击“ 配置”选项卡。选择Scope > Navigator Audit Server或Cloudera Management Service（服务范围）。选择Category > Main。找到“ 导航器审核服务器数据过期时间”属性，或通过在“搜索”框中键入其名称来搜索它。 Navigator Audit Server数据到期时间在Navigator Audit Server中，当数据达到此年龄（以天为单位）时，清除各种可审计服务的审计数据。默认情况下，Navigator Audit Server会将有关审核的数据保留90天。单击“ 保存更改”以提交更改。
规模调整，规划和最佳实践	Navigator Audit Server数据库的大小直接取决于集群的审计服务生成的审计事件的数量。通常，HDFS审核的数量超过了其他审核的数量（从HDFS读取的所有其他组件，如MRv1，Hive和Impala，这会产生额外的审核事件）。离散HDFS审核事件的平均大小约为1 KB。对于每小时生成约100K审计事件的50台主机的繁忙集群，Navigator Audit Server数据库每天将消耗约2.5 GB。要在该级别保留90天的审核，请规划大约250 GB的数据库大小。如果其他已配置的群集服务生成的数据与HDFS审核的数据量大致相同，则计划导航器审核服务器数据库在90天的数据中需要大约500 GB的存储空间。笔记：单个Hive和Impala查询本身可能非常大。由于查询本身是审计事件的一部分，因此此类审计事件会占用与查询长度成比例的空间。随着群集上的活动增加，所需的空间量也会增加。在某些情况下，Navigator Audit Server数据库可以在90天的审核事件中超过1 TB。定期对集群进行基准测试并进行相应调整要将Cloudera Navigator版本映射到Cloudera Manager版本，请参阅Cloudera Navigator的产品兼容性矩阵。

Cloudera Navigator - Navigator Metadata Server

配置主题	Navigator元数据服务器配置
默认存储位置	RDBMS：任何支持的RDBMS。有关更多信息，请参阅CDH和Cloudera Manager支持的数据库。磁盘： /var/lib/cloudera-scm-navigator/ 在导航器元数据服务器角色配置为运行的主机上。
存储配置默认值	RDBMS：没有公开的默认值或配置来直接剔除或清除此数据集的大小。磁盘：没有配置默认值来影响此位置的大小。您可以使用Navigator Metadata Server Storage Dir属性更改位置本身。此位置中的数据大小取决于系统中的元数据量（HDFS fsimage大小，Hive Metastore大小）和系统上的活动（运行MapReduce作业的数量，执行Hive查询等）。
在何处控制数据保留或最小/最大	RDBMS：应仔细调整Navigator Metadata Server数据库以支持大量元数据。磁盘： Navigator Metadata Server索引（嵌入式Solr实例）可能会在为Navigator Metadata Server Storage Dir属性指定的位置消耗大量磁盘空间。正在进行的维护任务包括从系统中清除元数据。
规模调整，规划和最佳实践	记忆：请参见Navigator Metadata Server调整。 RDBMS：该数据库用于存储策略和授权数据。数据集很小，但在Solr模式升级期间也使用此数据库，其中Solr文档被提取并再次插入到Solr中。这与上述用例具有相同的空间要求，但该空间仅在产品升级期间暂时使用。使用Cloudera Navigator产品兼容性矩阵的产品兼容性矩阵来映射Cloudera Navigator和Cloudera Manager版本。磁盘：此文件系统位置包含从托管集群中提取的所有元数据。数据存储在Solr中，因此这是Solr存储其索引和文档的位置。根据群集的大小，此数据可能占用数十GB。一个指导原则是查看HDFS fsimage的大小，并将该大小分配为初始大小的两到三倍。此处的数据是增量的，并且随着在群集上执行活动而继续增长。增长率可以达到每天数十兆字节。

一般表现说明

如果可能：

对于使用RDBMS的实体，请将数据库安装在与服务不同的主机上，并在尽可能少的服务器上合并使用数据库的角色。
为RDBMS或数据存储数据目录提供专用主轴，以避免与其他读/写活动的磁盘争用。

使用Cloudera Manager进行集群生命周期管理

使用parcel提供CDH和其他组件的Cloudera Manager集群在以下位置需要足够的磁盘空间：

包裹生命周期管理
宗地生命周期路径（默认）	笔记
本地包裹存储库路径（/opt/cloudera/parcel-repo）	此路径仅存在于Cloudera Manager Server所在的主机上（cloudera-scm-server)跑。Cloudera Manager Server会在此位置对所有新parcel进行分段，因为它从任何外部存储库中获取它们。然后，当管理员使用Cloudera Manager Administration Console或Cloudera Manager API分发parcel时，Cloudera Manager Agents将被指示从此位置获取parcel。规模和规划默认位置是 /opt/cloudera/parcel-repo但您可以在运行Cloudera Manager Server的主机上配置另一个本地文件系统位置。请参阅宗地配置设置。提供足够的空间来容纳从所有已配置的远程包裹存储库URL下载的所有宗地（请参阅宗地配置设置）。管理多个群集的Cloudera Manager部署存储所有群集的所有适用宗地。为每个操作系统提供了包裹，因此请注意，异构群集（群集中表示的不同操作系统）比具有同类操作系统的群集需要更多空间。例如，具有RHEL6.x和7.x主机的群集必须在本地宗地存储库路径中保留-el6和-el7个宗地，这需要两倍的空间量。生命周期管理和最佳实践从Cloudera Manager管理控制台中删除任何不再使用的包（从不从命令行手动删除它们），以恢复本地包存储库路径中的磁盘空间，同时跨所有包含该包的托管群集主机。备份注意事项定期备份此路径，并将其视为备份Cloudera Manager Server的非可选附件。如果将Cloudera Manager Server迁移到新主机或从备份中恢复（例如，在硬件故障后），请将此路径的完整内容恢复到新主机，/opt/cloudera/parcel-repo目录开始之前 cloudera-scm-agent要么 cloudera-scm-server 流程。
包裹缓存（/opt/cloudera/parcel-cache）	运行Cloudera Manager Agent阶段的托管主机将分发分发到此路径中（如.parcel文件，未提取）。不要手动操作此目录或其文件。规模和规划为每个主机提供足够的空间来容纳分配给每个主机的所有包裹。您可以配置Cloudera Manager以删除这些缓存.parcel提取并放入文件后的文件 /opt/cloudera/parcels/。保留这些临时文件并不是强制性的，但保留它们可以避免转移文件。包如果您因任何原因需要再次提取包裹，请从Cloudera Manager Server存储库获取文件。要在Cloudera的Manager管理控制台配置此行为，选择管理 > 设置 > 包裹 > 保留下载的文件包
主机包裹目录（/opt/cloudera/parcels）	运行Cloudera Manager Agent的托管群集主机从中提取parcel /opt/cloudera/parcel-cache包裹激活后进入此路径的目录。许多关键系统符号链接指向此路径中的文件，您绝不应手动操作其内容。规模和规划在每台主机上提供足够的空间，以容纳您分配给每台主机的所有包裹。请注意，典型的CDH包裹大小约为每个包裹2 GB，而某些第三方包裹可能超过3 GB。如果在升级之前和之后维护各种版本的parcel，请注意磁盘空间的影响。您可以将Cloudera Manager配置为在旧包裹不再使用时自动删除它们。作为管理员，您始终可以手动删除未使用的包裹版本，但配置这些设置可以自动处理删除，以防您忘记。要在Cloudera Manager Administration Console中配置此行为，请选择管理 > 设置 > 包裹并配置以下属性：自动删除旧包裹此参数控制是否应在群集不再使用时从群集中删除旧版本激活产品的宗地。默认值为Disabled。要保留的旧宗地版本数如果启用“ 自动删除旧地块”，则此设置指定要保留的旧地块的数量。超出此值的任何旧宗地都将被删除。如果此属性设置为零，则不会保留旧的宗地。默认值为3。

管理服务生命周期 - 空间回收任务
任务	描述
活动监视器（一次性）	活动监视器仅适用于MapReduce（MR1）服务，而不是YARN。因此，如果您的部署已完全迁移到YARN并且不再使用MapReduce（MR1）服务，则您的Activity Monitor数据库不再增长。如果您等待的时间超过默认的活动监视器保留期（14天）以解决此问题，那么活动监视器已经为您清除了所有内容，并且您的数据库基本上是空的。如果您的部署满足这些条件，请考虑通过删除活动监视器数据库进行清理（仅当您确信不再需要数据或已确认不再使用该数据时）和活动监视器角色。
服务监视器和主机监视器（一次性）	对于那些使用Cloudera Manager 4.x版并且现在已升级到版本5.x的用户：服务监视器和主机监视器已从先前配置的RDBMS迁移到专用的时间序列存储，这些存储分别仅由这些角色中的每个角色使用。发生这种情况后，这些角色的配置中仍然存在遗留数据库连接信息。这用于允许初始迁移，但不再用于任何活动工作。上述迁移发生后，不再使用以前由服务监视器和主机监视器使用的RDBMS数据库。这些数据库占用的空间现在可以恢复。如果适合您的环境（并且您对长期备份感到满意或者不再需要磁盘上的数据），则可以删除这些数据库。
正在进行的空间填海工程	Cloudera Management Services会在后台自动汇总，清除或整合老化数据。配置每个角色的保留和清除限制，以控制发生这种情况的方式和时间。以上是每个实体讨论的这些配置。调整默认配置以满足您的空间限制或保留需求。

日志文件

所有CDH群集主机都会为分配给主机的每个角色实例写出单独的日志文件。群集管理员可以监视和管理这些角色使用的磁盘空间，并配置日志轮换以防止日志文件占用过多磁盘空间。

有关更多信息，请参阅管理日志文件的磁盘空间。

结论

请记住这些信息，以便规划和构建Cloudera Manager管理的集群的部署。如果您已有实时群集，则此生命周期和备份信息可帮助您保持关键监视，审核和元数据源的安全和正确备份。

码农公寓