【一】
线性回归直觉上的解释
得到Ein = mean(y - wx)^2
【二】
w的推导
Ein = 1/N || xw - y||^2
连续、可微、凸函数
在各个方向的偏微分都是0
Ein = 1/N (wTxTxw - 2wTxTy + yTy)
Ein := 1/N (wTaw - 2wTb + c)
向量求导,aw - b = 0
xTxw = xTy
w = (xTx)^-1(xTy)
xTx的维度为dxd, x是nxd, y是nx1
可定义为 w = x^{+} y
那么有yHat = xx^{+} y
hat matrix: xx^{+}, H
【三】
没有学习过程,close-form solution, No!
计算逆矩阵的过程就是在学习。只要Eout是好的,学习这件事情就已经发生了。
从另一个角度看Eout会很好:(第一角度:vc dimension)
之前vc的观点:某些点,现在的观点:平均
几何解释:
样本数量的维度,y是n维向量,x是d个n维向量,展开。
H算子的作用, 作用在y上,得到在x展开空间中的向量
(I - H)算子的作用,得到与x垂直的向量
trace(I-H) = n-d+1
可以认为Ein就是y-yHat,就是noise在垂直方向的投影,就等于(I-H)noise
Ein = 1/N ||y - yHat|| = 1 - (d+1)/n * noiseLevel
同理,Eout = 1/N ||y-yHat|| = 1 + (d-1)/n * noiseLevel
Ein 和 Eout的差距,2(d+1)/n
【四】
linear classification和linear regression的差别
EReg > ECls
EClsOut < EClsIn + c < ERegIn + c
因此一个lr解也是一个比较好的lc的解