XGBoost也可以用于时间序列预测,尽管要先把时间序列数据集转换成适用于有监督学习的形式。它还需要使用一种专门的技术来评估模型,称为前向推进验证,因为模型评估使用了k-折叠交叉,这会产生有正偏差的结果。
在本文中,你将会了解到如何开发应用于时间序列预测的XGBoost模型。
完成本教程后,你将知道:
XGBoost是用于分类和回归问题的梯度提升集成方法的一个实现。
通过使用滑动时间窗口表示,时间序列数据集可以适用于有监督学习。
在时间序列预测问题上,如何使用XGBoost模型进行拟合、评估、预测。
教程概览
本教程分为三个部分,分别是:
一、XGBoost集成
二、时间序列数据准备
三、时间序列预测上的XGBoost
一、XGBoost集成
XGBoost是Extreme GradientBoosting的缩写,是一种高效的随机梯度提升的实现。
随机梯度提升算法(或者叫gradient boosting machines ortree boosting)是一种强大的机器学习技术,在很多有挑战的机器学习问题上,表现的非常好甚至是最好。
Tree boosting has been shown to give state-of-the-art results onmany standard classification benchmarks.
— XGBoost:A Scalable Tree Boosting System, 2016.
https://arxiv.org/abs/1603.02754
它是一个决策树算法的集成,其中新树可以对模型中已有树的结果进行修正。我们可以不断增加决策树,直到达到满意的效果。
XGBoost是随机梯度提升算法的一种高效实现,它可以通过一系列模型超参数在整个训练过程中控制模型。
The mostimportant factor behind the success of XGBoost is its scalability in allscenarios. The system runs more than ten times faster than existing popularsolutions on a single machine and scales to billions of examples in distributedor memory-limited settings.
— XGBoost: A Scalable TreeBoosting System, 2016.
https://arxiv.org/abs/1603.02754
XGBoost是为表格式数据集的分类和回归问题而设计的,也可以用于时间序列预测。
二、时间序列数据准备
时间数据可以用于监督学习。
给定时间序列数据集的一系列数字,我们可以重新构造数据,使其看起来像一个有监督的学习问题。我们可以使用前一个时间步长的数据作为输入变量,并使用下一个时间步长作为输出变量。
让我们用一个例子来具体学习。设想我们有这样一组时间序列数据:
我们可以把这个时间序列数据集重新构造成一个有监督学习,用前一个时间步长的值来预测下一个时间步的值。
通过这种方式重新组织时间序列数据集,数据将如下所示:
rolling window?
这种表示称为滑动窗口,因为输入和期望输出的窗口随着时间向前移动,为有监督学习模型创建新的“样本”。
有关准备时间序列预测数据的滑动窗口方法的更多信息,请参阅教程:
《Time Series Forecasting as Supervised Learning》
链接:https://machinelearningmastery.com/time-series-forecasting-supervised-learning/
可以用pandas库的shift()方法,按照给定的输入输出的长度,把时间序列数据转换为新框架。
这将是一个有用的工具,因为它可以让我们用机器学习算法来探索时间序列问题的不同框架,看看哪种方法可能会产生更好的模型。
下面的函数将时间序列作为具有一列或多列的NumPy数组时间序列,并将其转换为具有指定数量的输入和输出的监督学习问题。
参考:
《如何在Python中将时间序列转化为监督学习问题》
链接:https://machinelearningmastery.com/convert-time-series-supervised-learning-problem-python/
数据集准备好之后,我们需要关注如何使用它来拟合和评估一个模型。
比如用未来数据预测历史数据的模型是无效的。模型必须根据历史数据预测未来。
这意味着模型评估阶段,类似k折交叉检验这种数据集随机拆分的方法并不适用。相反我们必须使用一种称为向前推进验证的技术。
在前向验证中,首先通过选择一个拆分点将数据分为训练集和测试集,比如除去最后12个月的数据用于训练,最后12个月的数据用于测试。
如果对一步预测感兴趣,例如一个月,那么我们可以通过在训练数据集上训练并预测测试数据集中的第一个步长来评估模型。然后,我们可以将来自测试集的真实观测值添加到训练数据集中,重新调整模型,然后让模型预测测试数据集中的第二个步长。
在整个测试集上重复这个过程,可以得到一步长的预测,并且可以计算错误率来评估这个模型的表现。
有关前向验证的更多信息,请参考教程:
《How To Backtest Machine Learning Models for Time Series Forecasting》
链接:https://machinelearningmastery.com/backtest-machine-learning-models-time-series-forecasting/)
下边这个函数运行前向验证。
参数是整个时间序列数据集和用于测试集的行数。
然后它遍历测试集,调用xgboost_forecast()函数做一步长的预测。计算错误度量并返回详细信息以供分析。
train_test_split()函数是用来把数据集划分为训练集和测试集的。可以如下定义这个方法:
可以用XGBRegressor类来做一步预测。xgboost_forecast()方法实现的是,以训练集、测试集的输入作为函数的输入,拟合模型,然后做一步长预测。
现在我们已经知道如何准备用于预测的时间序列数据集,以及评估XGBoost模型,接下来我们可以在实际的数据集上使用XGBoost。
三、XGBoost用于时间序列预测
在本节中,我们将探讨如何使用XGBoost进行时间序列预测。
我们将使用一个标准的单变量时间序列数据集,目的是使用该模型进行一步预测。
你可以使用本节的代码来开始自己项目,它可以轻易的转化应用于多变量输入、多变量预测、多步长预测。
以下链接可以用于下载数据集,在本地工作目录以“daily-total-female-births.csv“的文件名导入。
Dataset (daily-total-female-births.csv)
链接:https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-total-female-births.csv
Description (daily-total-female-births.names)
链接:https://raw.githubusercontent.com/jbrownlee/Datasets/master/daily-total-female-births.names
https://www.jiqizhixin.com/articles/2020-09-02-2