神经网络训练经验

2024-01-22 13:05:58

【静态经验】

1. ResNet-50 3D，#param大约30+M，kinetics-400，dropout使用0.2，weight decay使用5e-4，momentum 0.9。

2. ResNet-23 2D，#param大约11M，kinetics-400，dropout使用0.5，weight decay使用1e-4， momentum0.9。

【Learning Rate】

与step调整lr相比，使用退火方式，使得训练过程更加顺滑，同时能够收敛到比较好的结果，同时更加稳定。

【Batch Size】

BN对batch size敏感，如果使用bn，则更大的batch size有利于bn更好拟合样本总体分布。

【Weight Decay】

根据目前的经验，wd和网络参数量、训练数据量有关。数据量差不多时，大网络使用大的weight decay（ResNet-50 3D，#param大约30M，kinetics-400，wd使用5e-4），小网络使用小的wd（ResNet-23 2D，#param大约11M，kinetics-400，wd使用1e-4）。

【Dropout】

根据目前的经验，小网络的do应该大，大网络的do应该小。例如ResNet-50 3D，#param大约30M，kinetics-400，do使用0.2；ResNet-23 2D，#param大约11M，kinetics-400，do使用0.5。

码农公寓

相关文章