TensorFlow：好用的时间序列训练测试集生成器（Python）

2022-11-17 17:41:59

TensorFlow：好用的时间序列训练测试集生成器（Python）

前言
一、tf.keras.preprocessing.sequence.TimeseriesGenerator介绍
二、示例展示
总结

前言

当我们使用TensorFlow框架搭建时间序列训练模型的时候，如何处理时间序列数据，生成训练集和测试集往往是一个不那么重要但是很麻烦的步骤，很多人选择自己写程序，但是有工具干嘛不用？官方教程使用的是timeseries_dataset_from_array，但是这个是适用TensorFlow在2.3或者以上的版本，对于较低版本不兼容，所以选择TimeseriesGenerator更保险一些，虽然功能上较前者稍微差一点，但也不影响。

一、tf.keras.preprocessing.sequence.TimeseriesGenerator介绍

tf.keras.preprocessing.sequence.TimeseriesGenerator(
data, targets, length, sampling_rate=1, stride=1, start_index=0, end_index=None,
shuffle=False, reverse=False, batch_size=128
)

主要参数介绍：
data：需要转换的原始时间序列
targets：需要转换的原始标签
length：生成的每段训练、测试时间序列长度
sampling_rate：采样间隔，一段采样中每个中间隔多少
stride：滑动步长
start_index：采样数据从哪个index开始
end_index：采样数据从哪个index结束
shuffle:是否打乱数据顺序
reverse：如果是True，那么会将采样时序倒过来呈现
batch_size：每批次中的时序数据数量

难理解点：sampling_rate和stride的功能区别在哪里？后面通过例子说明。

二、示例展示

代码如下（示例）：

data = np.array([[i] for i in range(50)])
targets = np.array([[i] for i in range(50)])

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=10, sampling_rate=1, stride=1,
                               batch_size=2)

print(data_gen[0])

(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[1],
        [2],
        [3],
        [4],
        [5]]]), array([[5],
       [6]]))

print(data_gen[1])

(array([[[2],
        [3],
        [4],
        [5],
        [6]],

       [[3],
        [4],
        [5],
        [6],
        [7]]]), array([[7],
       [8]]))

sampling_rate和stride的功能区别

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=1, stride=2,
                               batch_size=2)
print(data_gen[0])

(array([[[0],
        [1],
        [2],
        [3],
        [4]],

       [[2],
        [3],
        [4],
        [5],
        [6]]]), array([[5],
       [7]]))

data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
                               length=5, sampling_rate=2, stride=1,
                               batch_size=2)
print(data_gen[0])

(array([[[0],
        [2],
        [4]],

       [[1],
        [3],
        [5]]]), array([[5],
       [6]]))

总结

总的来说timeseries_dataset_from_array比TimeseriesGenerator功能更强大，但是TimeseriesGenerator兼容性更强一点，对于不想麻烦调整环境的人来说，还是更倾向于使用TimeseriesGenerator。

码农公寓