batchszie太大或者太小都不好。batchsize的值越大,梯度越稳定,而batchsize越小,梯度越具有随机性,如果batchsize太大,对内存的需求就更高,不利于网络跳出局部极小值点。在实际应用中,batch size 的选择需要考虑硬件资源、任务复杂度和模型的收敛速度。一个常见的方法是使用‘渐进式’ batch size 策略:在模型初期使用较小的 batch size 来获得多样化的梯度方向,然后逐步增大 batch size 来加速收敛。此外,可以结合学习率调整(如‘学习率调度’)来确保收敛的稳定性和模型的泛化性能
本文参考:https://blog.****.net/weixin_45928096/article/details/123643006