这节的学习内容主要讲了在深度学习背后的一些技术,主要是网络设计的一切技巧,主要有以下内容:
在做Optimization的时候,如何把Gradient Descent 做得更好?
Critical point、local minima、saddle point这些名词的含义,区别以及处理方法。
Batch的实际应用方法,以及large batch和small batch各自的优劣势;
为了克服传统Gradient descent的不足,提出的momentum方法;
Error surface可能遇到的一些问题,以及Adaptive learning rate的技巧;常用处理办法——Adam;