投影矩阵、最小二乘法和SVD分解

2023-02-24 11:54:05

投影矩阵广泛地应用在数学相关学科的各种证明中，但是由于其概念比较抽象，所以比较难理解。这篇文章主要从最小二乘法的推导导出投影矩阵，并且应用SVD分解，写出常用的几种投影矩阵的形式。

问题的提出

已知有一个这样的方程组：
\[Ax=b\]
其中，$A \in R^{m \times n},x,b \in R^n$

当$m=n$时，且$rank(A)=n$时，这是一个适定方程组，有唯一解$x=A^{-1}b$
当$m<n$时，或者$rank(A)<n$时，这是一个欠定方程组，有无穷多个解。对于这种情况，我们使用$ran(A)$中与$b$距离最近的向量对应的$x$作为最小二乘解。而相应的$ran(A)$中的这个向量就是$b$在空间$ran(A)$中的投影。

最小二乘法

几何解法

如上图所示，$b$不在$ran(A)$中，$Ax_0$是$ran(A)$空间中对$b$在欧几里得范数下的最好估计。此时\[\forall x \in {R^n},\left\langle {Ax,b - A{x_0}} \right\rangle = 0\]
等价于
\[{x^T}{A^T}(b - A{x_0}) = 0\]
由于x的任意性，所以
\[{A^T}(b - A{x_0}) = 0\]
整理得
\[{x_0} = {({A^T}A)^{ - 1}}{A^T}b = {A^\dagger }b\]
其中${A^\dagger } = {({A^T}A)^{ - 1}}{A^T}$称为A的伪逆。

数值解法

原问题等价于

\[\min ||Ax - b||_2^2\]

记$ f(x)=||Ax-b||_2^2=(Ax-b)^T(Ax-b)=x^TA^T A x-2 b^T A x + b^Tb$,对x求导得，

\[\nabla f = 2({A^T}Ax - {A^T}b) = 0\]
解得，
\[{x} = {({A^T}A)^{ - 1}}{A^T}b = {A^\dagger }b\]

投影矩阵

对最小二乘解两边同时乘以A，就是对应的投影向量，即

\[{Ax} = {A({A^T}A)^{ - 1}}{A^T}b=Pb\]

那么$P={A({A^T}A)^{ - 1}}{A^T}$就是将$b$投影到$ran(A)$的投影矩阵。因为

\[P^T={A({A^T}A)^{ - 1}}{A^T}=P,P^2=P\]
满足投影矩阵的定义。
所以$ran(A)$对应的投影矩阵为
\[P={A({A^T}A)^{ - 1}}{A^T}\]

SVD分解下的投影矩阵

秩为r的矩阵A的SVD分解为$A = U\Sigma {V^T} \in R^{m \times n}$。其中，

\[U = [{U_r}|{\tilde U_r}],V = [{V_r}|{\tilde V_r}]\]

那么，带入公式可以得到

$V_r V_r^T$是$ran(A^T)={null(A)}^\bot$空间的投影矩阵
$U_r U_r^T$是$ran(A)$空间的投影矩阵

对于$\forall x \in R^n$,有

\[ \left\langle {V_r V_r^T x,\tilde V_r {\tilde V_r}^T x} \right\rangle =x^T V_r V_r^T \tilde V_r {\tilde V_r}^T x=0\]

所以，$\tilde V_r {\tilde V_r}^T$是$null(A)$空间的投影矩阵
同理,$\tilde U_r {\tilde U_r}^T$是$null(A^T)={ran(A)}^\bot$空间的投影矩阵

码农公寓