YouTube课程地址
https://www.youtube.com/playlist?list=PLOXON7BTL9IW7Ggbc09jLqGmzkwPI4-3V
截止2021-5-3, 有112 个视频
1. 第21课 Gradient descent in practice I - Linear regression with multiple variables
- 如果变量的系数比较大,那么收敛比较慢,比如例子中的房子大小范围2000,房间数范围5. 图形显示的是比较扁长的椭圆。
- 如果系数转换范围为
0 <= X <= 1
那么就会很快收敛。图形显示的是比较正规的圆。
Feature Scaling缩放比例的范围在多大会收敛比较快呢?吴老师的经验是在 -3 <= x <= 3
.
如果范围太小,比如 -0.00001 <= x <= 0.00001
.
Mean normalization 均值归一化, x = (x - u) / s
, u 表示平均值,s表示范围。
2. 第22课 Gradient descent in practice II: Learning rate - Linear regression with multiple variables
梯度下降算法:
- 调试:如何确定梯度下降是对的?
- 怎么选择梯度下降的幅度?
梯度下降的是否为收敛的。如果每100次循环都下降,那么说明是收敛的,直到每1次循环收敛的速度小于10^-3
, 也就是0.001
。
梯度下降异常情况:
- 往收敛的反方向持续放大;
- 循环性的先变小再变大;
问题在于a 选择太大导致。
梯度下降算法总结:
- 如果a太小,则梯度下降收敛的速度很慢;
- 如果a太大,则梯度下降没有收敛在每100次循环内。
3. 第23课 Features and polynomial regression: Learning rate - Linear regression with multiple variables
房价预测:根据长度和深度,预测房价;可以转换为面积,预算房价
-
多项式回归方程,如果转换为二次方程,会是个抛物线的形状,也就是或房子在面积达到一定程度,越大房价会下降,不符合预期。那么就可以转化为3次方程。
-
问题:如何选择阶梯下降系数成为一个问题,因为3次方会太大?
二次方未知数,可以取个开平方,就转换为线性问题。
4. 第24课 Normal equation标准方程求解θ的最优值 - Linear regression with multiple variables
梯度下降求解θ,优点就是求解大数的时间比较短,缺点是要转换方程和缩小求解系数范围。
求解二元一次方程的最小值,是导数等于0的时候。
θ = (Xt * X)-1 * Xt * y
。 中文解析:(θ 等于 X 转置乘以X) 的逆,乘以X转置,乘以y
举例:
Normal equation标准方程求解θ的最优值,不需要做特征变量归一化。
- 未知数X达到1000以上要考虑梯度下降算法。
- 未知数X在1000以下,用Normal Equation的时间复杂度在的O(n³)
5. 第25课 Normal equation and non-invertibility标准方程求解θ的最优值, 以及某些条件下不可逆性 - Linear regression with multiple variables
Xt * X
不可逆的问题, Octave 中有两个函数可以求逆矩阵,
- pinv: pseudo-inverse 伪逆举证。就算不可逆矩阵,也可以求出θ。
- inv: 逆矩阵。
通常有两种情况会出现Xt * X
不可逆矩阵 - 有重复的特征:比如计算房子的面积,有用英尺计算,又有用米计算;解决:通过删除多余的同等等式。
- 有很多参数,但是条件等式很少的情况。删除参数,或者用regularization(后面会讲到)。
在大多数实现线性回归中,出现不可逆的问题不应该过多的关注。因为通过pinv
求解,也能得到结果。