TensorFlow:好用的时间序列训练测试集生成器(Python)

TensorFlow:好用的时间序列训练测试集生成器(Python)


前言

当我们使用TensorFlow框架搭建时间序列训练模型的时候,如何处理时间序列数据,生成训练集和测试集往往是一个不那么重要但是很麻烦的步骤,很多人选择自己写程序,但是有工具干嘛不用?官方教程使用的是timeseries_dataset_from_array,但是这个是适用TensorFlow在2.3或者以上的版本,对于较低版本不兼容,所以选择TimeseriesGenerator更保险一些,虽然功能上较前者稍微差一点,但也不影响。


一、tf.keras.preprocessing.sequence.TimeseriesGenerator介绍

tf.keras.preprocessing.sequence.TimeseriesGenerator(
data, targets, length, sampling_rate=1, stride=1, start_index=0, end_index=None,
shuffle=False, reverse=False, batch_size=128
)

主要参数介绍:
data:需要转换的原始时间序列
targets:需要转换的原始标签
length:生成的每段训练、测试时间序列长度
sampling_rate:采样间隔,一段采样中每个中间隔多少
stride:滑动步长
start_index:采样数据从哪个index开始
end_index:采样数据从哪个index结束
shuffle:是否打乱数据顺序
reverse:如果是True,那么会将采样时序倒过来呈现
batch_size:每批次中的时序数据数量

难理解点:sampling_rate和stride的功能区别在哪里?后面通过例子说明。

二、示例展示

代码如下(示例):

data = np.array([[i] for i in range(50)])
targets = np.array([[i] for i in range(50)])

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=10, sampling_rate=1, stride=1,
                               batch_size=2)
print(data_gen[0])

(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[1],
        [2],
        [3],
        [4],
        [5]]]), array([[5],
       [6]]))
print(data_gen[1])

(array([[[2],
        [3],
        [4],
        [5],
        [6]],

       [[3],
        [4],
        [5],
        [6],
        [7]]]), array([[7],
       [8]]))

sampling_rate和stride的功能区别

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=1, stride=2,
                               batch_size=2)
print(data_gen[0])
(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[2],
        [3],
        [4],
        [5],
        [6]]]), array([[5],
       [7]]))
data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=2, stride=1,
                               batch_size=2)
print(data_gen[0])
(array([[[0],
        [2],
        [4]],

       [[1],
        [3],
        [5]]]), array([[5],
       [6]]))

总结

总的来说timeseries_dataset_from_array比TimeseriesGenerator功能更强大,但是TimeseriesGenerator兼容性更强一点,对于不想麻烦调整环境的人来说,还是更倾向于使用TimeseriesGenerator。

上一篇:学习向量量化法(Learning vector quantization)


下一篇:201871010111-刘佳华 实验三 结对项目—《D{0-1}KP 实例数据集算法实验平台》项目报告