TensorFlow:好用的时间序列训练测试集生成器(Python)
前言
当我们使用TensorFlow框架搭建时间序列训练模型的时候,如何处理时间序列数据,生成训练集和测试集往往是一个不那么重要但是很麻烦的步骤,很多人选择自己写程序,但是有工具干嘛不用?官方教程使用的是timeseries_dataset_from_array,但是这个是适用TensorFlow在2.3或者以上的版本,对于较低版本不兼容,所以选择TimeseriesGenerator更保险一些,虽然功能上较前者稍微差一点,但也不影响。
一、tf.keras.preprocessing.sequence.TimeseriesGenerator介绍
tf.keras.preprocessing.sequence.TimeseriesGenerator(
data, targets, length, sampling_rate=1, stride=1, start_index=0, end_index=None,
shuffle=False, reverse=False, batch_size=128
)
主要参数介绍:
data:需要转换的原始时间序列
targets:需要转换的原始标签
length:生成的每段训练、测试时间序列长度
sampling_rate:采样间隔,一段采样中每个中间隔多少
stride:滑动步长
start_index:采样数据从哪个index开始
end_index:采样数据从哪个index结束
shuffle:是否打乱数据顺序
reverse:如果是True,那么会将采样时序倒过来呈现
batch_size:每批次中的时序数据数量
难理解点:sampling_rate和stride的功能区别在哪里?后面通过例子说明。
二、示例展示
代码如下(示例):
data = np.array([[i] for i in range(50)])
targets = np.array([[i] for i in range(50)])
data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
length=10, sampling_rate=1, stride=1,
batch_size=2)
print(data_gen[0])
(array([[[0],
[1],
[2],
[3],
[4]],
[[1],
[2],
[3],
[4],
[5]]]), array([[5],
[6]]))
print(data_gen[1])
(array([[[2],
[3],
[4],
[5],
[6]],
[[3],
[4],
[5],
[6],
[7]]]), array([[7],
[8]]))
sampling_rate和stride的功能区别
data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
length=5, sampling_rate=1, stride=2,
batch_size=2)
print(data_gen[0])
(array([[[0],
[1],
[2],
[3],
[4]],
[[2],
[3],
[4],
[5],
[6]]]), array([[5],
[7]]))
data_gen = tf.keras.preprocessing.sequence.TimeseriesGenerator(data, targets,
length=5, sampling_rate=2, stride=1,
batch_size=2)
print(data_gen[0])
(array([[[0],
[2],
[4]],
[[1],
[3],
[5]]]), array([[5],
[6]]))
总结
总的来说timeseries_dataset_from_array比TimeseriesGenerator功能更强大,但是TimeseriesGenerator兼容性更强一点,对于不想麻烦调整环境的人来说,还是更倾向于使用TimeseriesGenerator。