机器学习:P5-P8 误差的来源 and 梯度下降

P5-P8 误差的来源 and 梯度下降

bias(偏差)+variance(方差)

真实的模型和训练的模型之间的误差是偏差和方差导致的

1.评估bias

\(假设x的平均值是\mu,方差\sigma^2\)

取N个样本点,计算平均值\(m,m\neq\mu\)

对很多组的m求期望等于\(\mu\)

m分布对于\(\mu\)的方差取决于样本点的个数,N越小越逆闪

2.评估variance

\(s^2=\frac{1}{N}\sum_n(x^n-m)^2\)

\(E[s^2]=\frac{N-1}{N}\sigma^2\neq\sigma^2\)

简单的模型偏差是比较大的,复杂的模型偏差小,复杂模型的域可能包含目标

简单的模型方差是比较小的,复杂的模型方差大,散布开

bias大重新考虑模型

variance大考虑数据集的调整

交叉验证

将训练集分为两部分,训练集和检验集,

1.用训练集训练模型,然后再验证集上比较,确定较好的模型

2.用全部的训练集训练确定的模型

3.用测试集测试

N-折交叉验证

将训练集分成N份

1.N-1Train,1val

2.用不同的model去训练选出最好的

3.用全部的Training set去训练选出的model

Gradient Descent

Tip 1: Tuning your learning rates

Adaptive Learning Rates

逐渐减小learning rate \(\eta^t=\eta/\sqrt{t+1}\)

不同的参数设计不同的rate

Adagrad

Learning rate= \(\eta^t\)除以过去所有微分的平均值

\(w^{t+1}=w^t-\frac{\eta}{\sqrt{\sum_{i=0}^t(g^i)^2}}g^t\)

the best step is \(\frac{Fist derivative}{Second derivative}\)

Tip 2 : Stochastic Gradient Descent

每次只选一个example(部分data)来算Lost function ,G-D走了一步,S-G-D走很多很多步

但每次走的方向和全局梯度方向是不一致的

Tip 3 : Feature Scaling

让不同的参数的Scaling相同

R个example, 对每一个example的参数i取平均值\(\sigma_i\)

\(x_i^r<-\frac{x_i^r-m_i}{\sigma_i}\)

Gradient Descent 的 learning rate要小,否则就不能保证Lost function在减小。

数学证明的关键思路:函数在某一点的泰勒展开后,只有x无限趋于这个点时,才能用多项式插(一阶展开就是Gradient Descent的形式了),但Learning rate 太大的时候,x距离这一点就不足够近了。

机器学习:P5-P8 误差的来源 and 梯度下降

上一篇:题解-CF1560


下一篇:集合~HashMap