多项式曲线拟合问题中的最大后验与最小化正则和平方和误差之间的关系
简单证明多项式回归的最大后验等价于最小正则化和平方和误差;
主要内容:
- 多项式回归
- 高斯分布
- 贝叶斯定理
- 对数函数计算
1. 简单回顾一下多项式回归
y
(
x
,
w
)
=
w
0
+
w
1
x
+
w
2
x
2
+
.
.
.
+
w
M
x
M
=
∑
j
=
0
M
w
j
x
j
y(x, w) = w_0 + w_1x + w_2x^2 + ... + w_Mx^M = \sum_{j=0}^{M}w_jx^j
y(x,w)=w0+w1x+w2x2+...+wMxM=j=0∑Mwjxj
变量符号:
- M M M : 多项式的阶数
- x j x^j xj : x x x的 j j j次幂
- w j w_j wj : 多项式系数
- w w w : w 0 , w 1 , . . . , w M w_0, w_1, ..., w_M w0,w1,...,wM系数向量
误差函数
系数向量
w
w
w可以通过最小化误差函数来求解,误差函数衡量对于给定的
w
,
y
(
x
,
w
)
w, y(x, w)
w,y(x,w)与目标值
t
n
t_n
tn的差别,常用的误差函数平方和误差:
E
(
w
)
=
1
2
∑
n
=
1
N
{
y
(
x
n
,
w
)
−
t
n
}
2
E(w) = \frac{1}{2} \sum_{n=1}^{N}\{y(x_n,w) - t_n\}^2
E(w)=21n=1∑N{y(xn,w)−tn}2
w
∗
=
a
r
g
m
i
n
(
E
(
w
)
)
w^* = argmin(E(w))
w∗=argmin(E(w))
变量符号:
- 1 2 \frac{1}{2} 21 : 没有意义,纯粹为了后面计算方便
- E ( w ) E(w) E(w) : 平方和误差,越小 y ( x , w ) y(x,w) y(x,w)对 t n t_n tn拟合效果就越好
L2正则化
为了防止出现过拟合的情况,通常会采用一种正则化的技术,通过给误差函数增加一个惩罚项,来限制系数的大小,构建一个相对复杂和灵活的模型。比如:如果系数较大,那么对输入的 x x x就会比较敏感,输入的微小的变化都会造成输出的剧烈抖动,所以减小系数的大小,可以是模型更加灵活。
L2正则项:所有系数的平方和
E ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + λ 2 ∣ ∣ w ∣ ∣ 2 E(w) = \frac{1}{2} \sum_{n=1}^{N}\{y(x_n, w) - t_n\}^2 + \frac{\lambda}{2}||w||^2 E(w)=21n=1∑N{y(xn,w)−tn}2+2λ∣∣w∣∣2
- ∣ ∣ w ∣ ∣ 2 = w T w = w 0 2 + w 1 2 + . . . w M 2 ||w||^2 = w^Tw = w_0^2 + w_1^2 + ... w_M^2 ∣∣w∣∣2=wTw=w02+w12+...wM2
- λ \lambda λ : 正则化系数,控制正则化项在误差函数中的重要性
2. 简单回顾一下贝叶斯定理
P
(
Y
∣
X
)
=
P
(
X
∣
Y
)
P
(
Y
)
P
(
X
)
P(Y|X) = \frac{P(X|Y)P(Y)}{P(X)}
P(Y∣X)=P(X)P(X∣Y)P(Y)
P
(
X
)
=
∑
Y
P
(
X
∣
Y
)
P
(
Y
)
P(X) = \sum_Y P(X|Y)P(Y)
P(X)=Y∑P(X∣Y)P(Y)
- P ( Y ∣ X ) P(Y|X) P(Y∣X) : 后验概率
- P ( X ∣ Y ) P(X|Y) P(X∣Y) : 似然度
- P ( Y ) P(Y) P(Y) : 先验概率
- P ( X ) P(X) P(X) : 归一化常数
贝叶斯&多项式回归
从贝叶斯概率的角度对多项式曲线拟合中的系数向量(参数) w w w 的不确定性进行描述。贝叶斯定理在曲线拟合问题下的新意义:
P ( w ∣ D ) = P ( D ∣ w ) P ( w ) P ( D ) P(w|\mathcal D) = \frac{P(\mathcal D|w)P(w)}{P(\mathcal D)} P(w∣D)=P(D)P(D∣w)P(w)
- D \mathcal D D : 观测数据,目标值 D = { t 1 , . . . , t n } \mathcal D = \{t_1, ..., t_n\} D={t1,...,tn}
- P ( w ) P(w) P(w) : 在观察到 D \mathcal D D之前,对于参数(系数)向量的先验假设
- P ( D ∣ w ) P(\mathcal D | w) P(D∣w) : 似然函数(关于 w w w的函数),表示在不同 w w w下, D \mathcal D D出现的可能性大小
- ( w ∣ D ) (w|\mathcal D) (w∣D) : 后验概率,通过观察 D \mathcal D D后对 w w w不确定性的估计
-
P
(
D
)
P(\mathcal D)
P(D) : 归一化常数
P ( D ) = ∫ P ( D ∣ w ) P ( w ) d w P(\mathcal D) = \int P(\mathcal D|w)P(w) dw P(D)=∫P(D∣w)P(w)dw
最大似然估计
频率派常用最大似然估计来估计
w
w
w的值,
w
∗
w^*
w∗的值使似然函数
P
(
D
∣
w
)
P(\mathcal D|w)
P(D∣w)达到最大值。
w
∗
w^*
w∗ 参数估计的解
w
∗
=
a
r
g
m
a
x
(
P
(
D
∣
w
)
)
w^* = argmax(P(\mathcal D|w))
w∗=argmax(P(D∣w))
3. 简单回顾一下高斯分布
- 一元变量
x
x
x的高斯分布定义:
N ( x ∣ μ , σ 2 ) = 1 2 π σ 2 e { − 1 2 σ 2 ( x − μ ) 2 } \mathcal N(x | \mu, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}}\mathcal e^{\big \{-\frac{1}{2\sigma^2}(x-\mu)^2 \big \}} N(x∣μ,σ2)=2πσ2 1e{−2σ21(x−μ)2}
- μ \mu μ : 均值
- σ 2 \sigma^2 σ2 : 方差
- β \beta β : 精度,方差的倒数 β = 1 σ 2 \beta = \frac{1}{\sigma^2} β=σ21
- 期望
E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ E[x] = \int_{-\infty}^{\infty} \mathcal N(x|\mu, \sigma^2)x dx = \mu E[x]=∫−∞∞N(x∣μ,σ2)xdx=μ - 二阶矩,平方的期望
E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 E[x^2] = \int_{-\infty}^{\infty} \mathcal N(x|\mu, \sigma^2)x^2 dx = \mu^2 + \sigma^2 E[x2]=∫−∞∞N(x∣μ,σ2)x2dx=μ2+σ2 - 方差
v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 var[x] = E[x^2] - E[x]^2 = \sigma^2 var[x]=E[x2]−E[x]2=σ2 - D维向量的高斯分布
N ( x ∣ μ , σ ) = 1 ( 2 π ) D 2 1 ∣ ∑ ∣ 1 2 e { − 1 2 ( x − μ ) T ∑ − 1 ( x − μ ) } \mathcal N(x|\mu,\sigma) = \frac{1}{(2\pi)^{\frac{D}{2}}}\frac{1}{|\sum|^{\frac{1}{2}}}\mathcal e^{\{-\frac{1}{2}(x-\mu)^T\sum^{-1}(x-\mu)\}} N(x∣μ,σ)=(2π)2D1∣∑∣211e{−21(x−μ)T∑−1(x−μ)}
- μ \mu μ : D维度均值向量
- ∑ \sum ∑ : 协方差矩阵
似然函数
P ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) P(\mathbf x | \mu, \sigma^2) = \prod_{n=1}^{N}\mathcal N(x_n|\mu,\sigma^2) P(x∣μ,σ2)=n=1∏NN(xn∣μ,σ2)
- x \mathbf x x : 独立分布的数据集 ( x 1 , x 2 , . . . , x N ) T (x_1, x_2, ..., x_N)^T (x1,x2,...,xN)T
- x x x : D维向量变量 ( x 1 , x 2 , . . . , x D ) T (x^1, x^2, ..., x^D)^T (x1,x2,...,xD)T
最大似然估计来确定高斯分布中的参数 μ , σ 2 \mu, \sigma^2 μ,σ2
μ
∗
,
σ
2
∗
=
a
r
g
m
a
x
{
P
(
x
∣
μ
,
σ
2
)
}
\mu^*, {\sigma^2}^* = argmax\{P(\mathbf x | \mu, \sigma^2)\}
μ∗,σ2∗=argmax{P(x∣μ,σ2)}
μ
∗
=
1
N
∑
n
=
1
N
x
n
\mu^* = \frac{1}{N}\sum_{n=1}^{N} x_n
μ∗=N1n=1∑Nxn
σ
2
∗
=
1
N
∑
n
=
1
N
(
x
n
−
μ
∗
)
2
{\sigma^2}^* = \frac{1}{N}\sum_{n=1}^{N}(x_n - \mu^*)^2
σ2∗=N1n=1∑N(xn−μ∗)2
μ
\mu
μ和
σ
2
\sigma^2
σ2无关,可先估计
μ
\mu
μ,在估计
σ
2
\sigma^2
σ2
4. 从贝叶斯定理角度理解多项式回归
1. 最大化似然函数
多项式拟合曲线的目标:根据数据集 x = ( x 1 , x 2 , . . . , x N ) \mathbf x = (x_1, x_2, ..., x_N) x=(x1,x2,...,xN)和对应的目标值 t = ( t 1 , t 2 , . . . , t N ) \mathbf t = (t_1, t_2, ...,t_N) t=(t1,t2,...,tN),找到一组参数向量 w w w,可以对新的输入 x = { x 1 , x 2 , . . . x D } x = \{x^1, x^2,...x^D\} x={x1,x2,...xD},进行预测。
-
目标变量的不确定性,假设:给定 x x x,对应 t t t 服从高斯分布,分布均值: y ( x , w ) y(x, w) y(x,w),精度: β − 1 = σ 2 \beta^{-1} = \sigma^2 β−1=σ2。
P ( t ∣ x , w , β ) = N ( t ∣ y ( x , w ) , β − 1 ) P(t|x, w, \beta) = \mathcal N(t|y(x, w) ,\beta^{-1}) P(t∣x,w,β)=N(t∣y(x,w),β−1) -
似然函数:
P ( t ∣ x , w , β ) = ∏ n = 1 N N ( t n ∣ y ( x n , w ) , β − 1 ) P(\mathbf t|\mathbf x, w, \beta) = \prod_{n=1}^{N} \mathcal N(t_n|y(x_n,w),\beta^{-1}) P(t∣x,w,β)=n=1∏NN(tn∣y(xn,w),β−1) -
估计参数:最大似然
-
取对数,简化计算,避免下溢
l n ( P ( t ∣ x , w , β ) ) = l n ( ∏ n = 1 N N ( t n ∣ y ( x n , w ) , β − 1 ) = l n ( ∏ n = 1 N 1 2 π β − 1 e ( − 1 2 β − 1 ( y ( x n , w ) − t n ) 2 ) ) = ∑ n = 1 N l n ( 1 2 π β − 1 e ( − 1 2 β − 1 ( y ( x n , w ) − t n ) 2 ) ) = ∑ n = 1 N [ l n ( 1 2 π β − 1 ) + l n ( e ( − 1 2 β − 1 ( y ( x n , w ) − t n ) 2 ) ) ] = ∑ n = 1 N l n ( 1 2 π β − 1 ) + ∑ n = 1 N − 1 2 β − 1 ( y ( x n , w ) − t n ) 2 = ∑ n = 1 N [ l n ( 1 2 π ) + l n ( 1 β − 1 ) ] − 1 2 β − 1 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 = ∑ n = 1 N − 1 2 l n ( 2 π ) + ∑ n = 1 N 1 2 l n ( β ) − β 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 = − N 2 l n ( 2 π ) + N 2 l n ( β ) − β 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 \begin{aligned}ln \big(P(\mathbf t|\mathbf x, w, \beta)\big) &= ln \big(\prod_{n=1}^{N}\mathcal N(t_n|\mathcal y(x_n,w),\beta^{-1}\big) \\ &=ln\big(\prod_{n=1}^{N}\frac{1}{\sqrt{2\pi\beta^{-1}}}\mathcal e^{\big(-\frac{1}{2\beta^{-1}}(\mathcal y(x_n,w)-t_n)^2\big)}\big) \\ &=\sum_{n=1}^{N}ln\big(\frac{1}{\sqrt{2\pi\beta^{-1}}}\mathcal e^{\big(-\frac{1}{2\beta^{-1}}(\mathcal y(x_n,w)-t_n)^2\big)}\big) \\ &=\sum_{n=1}^{N}\big[ln\big(\frac{1}{\sqrt{2\pi\beta^{-1}}}\big) + ln\big(\mathcal e^{\big(-\frac{1}{2\beta^{-1}}(\mathcal y(x_n,w)-t_n)^2\big)}\big)\big] \\ &=\sum_{n=1}^{N}ln\big(\frac{1}{\sqrt{2\pi\beta^{-1}}}\big) + \sum_{n=1}^{N} -\frac{1}{2\beta^{-1}}(\mathcal y(x_n,w)-t_n)^2 \\ &=\sum_{n=1}^{N}[ln\big(\frac{1}{\sqrt{2\pi}}\big)+ln\big(\frac{1}{\sqrt{\beta^{-1}}}\big)] -\frac{1}{2\beta^{-1}}\sum_{n=1}^{N}(\mathcal y(x_n,w)-t_n)^2 \\ &=\sum_{n=1}^{N}-\frac{1}{2}ln(2\pi)+\sum_{n=1}^{N}\frac{1}{2}ln(\beta)-\frac{\beta}{2}\sum_{n=1}^{N}(\mathcal y(x_n,w)-t_n)^2 \\ &=\frac{-N}{2}ln(2\pi) + \frac{N}{2}ln(\beta) -\frac{\beta}{2}\sum_{n=1}^{N}(\mathcal y(x_n,w)-t_n)^2 \\ \end{aligned} ln(P(t∣x,w,β))=ln(n=1∏NN(tn∣y(xn,w),β−1)=ln(n=1∏N2πβ−1 1e(−2β−11(y(xn,w)−tn)2))=n=1∑Nln(2πβ−1 1e(−2β−11(y(xn,w)−tn)2))=n=1∑N[ln(2πβ−1 1)+ln(e(−2β−11(y(xn,w)−tn)2))]=n=1∑Nln(2πβ−1 1)+n=1∑N−2β−11(y(xn,w)−tn)2=n=1∑N[ln(2π 1)+ln(β−1 1)]−2β−11n=1∑N(y(xn,w)−tn)2=n=1∑N−21ln(2π)+n=1∑N21ln(β)−2βn=1∑N(y(xn,w)−tn)2=2−Nln(2π)+2Nln(β)−2βn=1∑N(y(xn,w)−tn)2
-
继续简化,省略冗余项
- − N 2 l n ( 2 π ) + N 2 l n ( β ) \frac{-N}{2}ln(2\pi) + \frac{N}{2}ln(\beta) 2−Nln(2π)+2Nln(β) : 与 w w w无关,可省略
-
1
2
\frac{1}{2}
21替换
−
β
2
-\frac{\beta}{2}
−2β : 替换系数并取反,最大化对数似然函数
⟺
\iff
⟺最小化负对数似然函数
右 式 = 1 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 右式 = \frac{1}{2}\sum_{n=1}^{N}(\mathcal y(x_n,w)-t_n)^2 右式=21n=1∑N(y(xn,w)−tn)2 - 平方和误差函数:
E ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 E(w) = \frac{1}{2} \sum_{n=1}^{N}\{y(x_n,w) - t_n\}^2 E(w)=21n=1∑N{y(xn,w)−tn}2 - 结论:
最大化对数似然函数 ⟺ \iff ⟺最小化负对数似然函数 ⟺ \iff ⟺最小化平方和误差函数
-
估计 w ∗ w^* w∗ 和 β ∗ \beta^* β∗
w ∗ = a r g m a x ( l n ( t ∣ x , w , β ) ) ⟺ a r g m i n ( E ( w ) ) w^* = argmax(ln(\mathbf t|\mathbf x, w, \beta)) \iff argmin(E(w)) w∗=argmax(ln(t∣x,w,β))⟺argmin(E(w))
β ∗ − 1 = 1 N ∑ n = 1 N { y ( x n , w ∗ ) − t n ) } 2 \beta^{*-1} = \frac{1}{N}\sum_{n=1}^{N}\{y(x_n,w^*)- t_n)\}^2 β∗−1=N1n=1∑N{y(xn,w∗)−tn)}2 -
预测,预测 x x x对应 t t t的概率分布的预测分布(不是一个点的估计)
P ( t ∣ x , w ∗ , β ∗ ) = N ( t ∣ y ( x , w ∗ ) , β ∗ − 1 ) P(t|x, w^*, \beta^*) = \mathcal N(t|y(x, w^*), \beta^{*-1}) P(t∣x,w∗,β∗)=N(t∣y(x,w∗),β∗−1)
-
2. w w w 的先验假设
假设 w w w也是服从高斯分布(多项式回归, w w w是独立多元高斯分布):
P ( w ∣ α ) = N ( w ∣ 0 , α − 1 I ) = ∏ i = 1 M + 1 N ( w i ∣ 0 , 1 α i ) = ∏ i = 1 M + 1 1 2 π 1 α i e − ( ( w i ) 2 2 1 α i ) = ∏ i = 1 M + 1 1 2 π 1 α i − 1 × e − ∑ i = 1 M + 1 ( α i ( w i ) 2 2 ) = ∏ i = 1 M + 1 α i 2 π × e − ∑ i = 1 M + 1 ( α i ( w i ) 2 2 ) = ( α 2 π ) M + 1 2 e { − α 2 w T w } \begin{aligned} P(w|\alpha) &= \mathcal N(w | 0, \alpha^{-1}I) \\ &= \prod_{i=1}^{M+1}\mathcal N(w^i | 0,\frac{1}{\alpha^i}) \\ &= \prod_{i=1}^{M+1}\frac{1}{\sqrt{2\pi\frac{1}{\alpha^i}}}\mathcal e^{-\big(\frac{(w^i)^2}{2\frac{1}{\alpha^i}}\big)} \\ &= \prod_{i=1}^{M+1}\frac{1}{\sqrt{2\pi}}\frac{1}{\sqrt{\alpha^i}^{-1}} \times e^{-\sum_{i=1}^{M+1}\big(\frac{\alpha^i(w^i)^2}{2}\big)} \\ &= \prod_{i=1}^{M+1}\frac{\sqrt{\alpha^i}}{\sqrt{2\pi}} \times e^{-\sum_{i=1}^{M+1}\big(\frac{\alpha^i(w^i)^2}{2}\big)} \\ &= \big(\mathbf{\frac{\alpha}{2\pi}}\big)^{\frac{M+1}{2}}\mathcal e^{\{-\frac{\mathbf{\alpha}}{2}w^Tw\}}\end{aligned} P(w∣α)=N(w∣0,α−1I)=i=1∏M+1N(wi∣0,αi1)=i=1∏M+12παi1 1e−(2αi1(wi)2)=i=1∏M+12π 1αi −11×e−∑i=1M+1(2αi(wi)2)=i=1∏M+12π αi ×e−∑i=1M+1(2αi(wi)2)=(2πα)2M+1e{−2αwTw}
- α \alpha α : 分布的精度,方差的倒数
- α i , w i \alpha^i, w^i αi,wi : 参数向量的精度和对应的元素
- M M M : 多项式的阶数, M + 1 M+1 M+1参数向量 w \mathbf{w} w的元素个数
- 超参数: α \alpha α控制模型参数分布的参数
3.最大化后验概率
-
根据贝叶斯定理:
后 验 概 率 = 似 然 函 数 × 先 验 概 率 归 一 化 常 数 后验概率 = \frac{似然函数 \times 先验概率}{归一化常数} 后验概率=归一化常数似然函数×先验概率 -
多项式回归中参数 w w w的后验概率(归一化常数省略):
P ( w ∣ x , t , α , β ) ∝ P ( t ∣ x , w , β ) P ( w ∣ α ) P(w | \mathbf x,\mathbf t, \alpha, \beta) \propto P(\mathbf t|\mathbf x, w, \beta)P(w| \alpha) P(w∣x,t,α,β)∝P(t∣x,w,β)P(w∣α) -
参数估计:最大后验
- 取对数,简化计算
l n ( P ( w ∣ x , t , α , β ) ) = l n ( P ( t ∣ x , w , β ) P ( w ∣ α ) ) = l n ( P ( t ∣ x , w , β ) ) + l n ( P ( w ∣ α ) ) = − N 2 l n ( 2 π ) + N 2 l n ( β ) − β 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 + l n ( ( α 2 π ) M + 1 2 ) − α 2 w T w \begin{aligned}ln\big(P(w | \mathbf x,\mathbf t, \alpha, \beta)\big) &= ln\big(P(\mathbf t|\mathbf x, w, \beta)P(w| \alpha)\big) \\ &=ln\big(P(\mathbf t|\mathbf x, w, \beta)\big) + ln\big(P(w|\alpha)\big) \\ &=\frac{-N}{2}ln(2\pi) + \frac{N}{2}ln(\beta) -\frac{\beta}{2}\sum_{n=1}^{N}(\mathcal y(x_n,w)-t_n)^2 + ln\big(\big(\frac{\alpha}{2\pi}\big)^{\frac{M+1}{2}}\big) -\frac{\alpha}{2}w^Tw\end{aligned} ln(P(w∣x,t,α,β))=ln(P(t∣x,w,β)P(w∣α))=ln(P(t∣x,w,β))+ln(P(w∣α))=2−Nln(2π)+2Nln(β)−2βn=1∑N(y(xn,w)−tn)2+ln((2πα)2M+1)−2αwTw
-
继续简化,省略冗余项,并取反
- 去掉 − N 2 l n ( 2 π ) + N 2 l n ( β ) + l n ( ( α 2 π ) M + 1 2 ) \frac{-N}{2}ln(2\pi) + \frac{N}{2}ln(\beta) + ln\big(\big(\frac{\alpha}{2\pi}\big)^{\frac{M+1}{2}}\big) 2−Nln(2π)+2Nln(β)+ln((2πα)2M+1)
- 取反,负对数最大后验
− l n ( P ( w ∣ x , t , α , β ) ) ⟺ β 2 ∑ n = 1 N ( y ( x n , w ) − t n ) 2 + α 2 w T w -ln\big(P(w | \mathbf x, \mathbf t, \alpha, \beta)\big) \iff \frac{\beta}{2}\sum_{n=1}^{N}(\mathcal y(x_n,w)-t_n)^2 + \frac{\alpha}{2}w^Tw −ln(P(w∣x,t,α,β))⟺2βn=1∑N(y(xn,w)−tn)2+2αwTw
-
带有L2正则的平方和误差函数
E ( w ) = 1 2 ∑ n = 1 N { y ( x n , w ) − t n } 2 + λ 2 ∣ ∣ w ∣ ∣ 2 E(w) = \frac{1}{2} \sum_{n=1}^{N}\{y(x_n, w) - t_n\}^2 + \frac{\lambda}{2}||w||^2 E(w)=21n=1∑N{y(xn,w)−tn}2+2λ∣∣w∣∣2
− l n ( P ( w ∣ x , t , α , β ) ) ⟺ E ( w ) -ln\big(P(w | \mathbf x,\mathbf t, \alpha, \beta)\big) \iff E(w) −ln(P(w∣x,t,α,β))⟺E(w) -
结论:
最 大 化 对 数 后 验 ⟺ 最 小 化 负 对 数 后 验 ⟺ 最 小 化 带 有 L 2 正 则 的 平 方 和 误 差 函 数 最大化对数后验 \iff 最小化负对数后验 \iff 最小化带有L2正则的平方和误差函数 最大化对数后验⟺最小化负对数后验⟺最小化带有L2正则的平方和误差函数