一站式数据采集存储的利器：阿里云InfluxDB®️数据采集服务

2022-01-22 19:35:56

背景

随着时序数据的飞速增长，时序数据库不仅需要解决系统的稳定性和性能问题，还需实现数据从采集到分析的链路打通，才能让时序数据真正产生价值。

在时序数据采集领域，一直缺少自动化的采集工具。虽然用户可以使用一些开源的采集工具实现数据采集，例如，Telegraf、Logstash和TCollector等，但是，这些采集工具都需要用户自行搭建并维护其运行的环境，增加了用户的学习成本，大大提高了数据采集的门槛。另一方面，现有的采集工具缺乏对多个采集源的自动化管理，用户难以统一管理多个不同的采集源，实时监控各个采集工具是否正常运行并采集数据。

阿里云InfluxDB®除了提供稳定可靠的时序数据库服务，还提供了非常便捷的数据采集服务。用户能够方便查看各个采集源的运行状态并管理它们，采集的数据会自动存储到阿里云InfluxDB®。用户无需担心运维的问题，实现数据从采集到分析的一站式服务。本文主要介绍如何使用InfluxDB®的数据采集服务，实现数据从采集到存储的自动化管理。

阿里云InfluxDB®数据采集服务优势

提供丰富的采集指标：支持MySQL、Redis、MongoDB和系统监控等数据的采集
支持监控多个采集源：用户可以一目了然地监控多个采集源的状态
采集源便捷管理：无需编码，用户即可方便地添加、删除和修改采集源
采集数据自动存入InfluxDB®，保障采集数据不丢失

我们能做什么？

1. 轻松采集数据
目前，阿里云InfluxDB®支持采集有关MySQL、Redis、MongoDB和系统监控等四种不同类型的数据，针对每种类型的数据，采集多项监控指标，方便用户更全面地了解被监控对象。用户通过InfluxDB®实例的管理控制台，即可添加新采集源，一键安装，无需编写代码。

采集数据的操作流程如下：

创建采集配置：选择采集数据的类型、数据写入的数据库和保留策略。
添加采集源：在数据源机器上一键安装InfluxDB®数据采集工具，选择采集配置，即可开始采集数据。

2. 实时监控采集源
采集源在运行过程中，您可以实时地监控数据采集的状态，查看采集数据最近一次到达InfluxDB®的时间；并且，您还可以随时停止数据的采集，在您认为合适的时候再重新开启数据采集服务。

3. 一键切换采集数据类型
如果您想要改变被监控机器上的采集数据类型，无需重新添加新的采集源，只需选择您想要的采集配置即可，数据采集工具会自动切换成采集您指定的监控数据。

4. 采集数据自动存入InfluxDB®
您可以在采集配置中选择数据流入的数据库和保留策略，数据采集工具会自动将采集数据存入指定的数据库和保留策略，并且，您可以在采集源运行的过程中修改数据写入的数据库和保留策略，只需修改采集配置即可。

最佳实践

本小节将介绍如何采集系统监控的数据，并实时展示采集结果。系统监控的数据包含处理器、磁盘、内存、网络、进程和系统等信息，收集的数据分别存储在8个不同的measurement中（measurement分别为cpu、disk、diskio、mem、net、processes、swap和system）。在开始前，请先确保已经成功创建数据库和对该数据库有读写权限的用户账号。

1. 创建采集系统监控数据的配置
点击InfluxDB®管理控制台左侧导航栏的“添加采集配置”，进入到采集配置添加界面，如下图所示。填写“采集配置名称”，选择“采集数据类型”为“系统监控”，然后选择“授权账号”、“数据写入DB”和“数据库存储策略”，并填写“授权密码”。点击“添加”即可成功创建采集配置。

2. 添加采集源
点击InfluxDB®管理控制台左侧导航栏的“添加采集源”，进入到采集源添加页面。
（1）选择网络类型，“公网”或者“专有网络”，然后点击“下一步”，如下图所示。

（2）在数据源所在主机安装采集工具。将安装命令复制到主机上即可运行采集工具。采集工具运行后会与InfluxDB®建立连接，在“新采集源扫描结果列表”上可以看到新添加的采集源，如果在该列表上没有显示，可以点击“刷新”或“自动刷新”。如下图所示。

（3）选择采集系统监控的数据。在上图中，点击“选择采集配置”，进入如下界面，从下拉框中选择刚刚创建的名为“collect-system”的采集配置。选择完成后，点击“保存”。

（4）启动数据采集。勾选需要启动的采集源，然后点击“完成并启动采集”，采集工具即可在采集源上开始采集数据，如下图所示。

3. 查看数据采集的状态
在“采集源列表”中，您可以看到所有与InfluxDB®实例建立连接的采集源，如下图所示。每个采集源由uuid唯一标识，“采集状态”为“running”表示采集工具正在采集数据并上报到InfluxDB®，“最新采集上报成功时间”表示采集数据最近一次成功发送到InfluxDB®的时间。