人工智能数学基础: 15-基变换对矩阵的影响

2023-12-13 13:15:22

基变换对矩阵的影响

下面的命题描述了基的变化对线性映射表示的影响。

命题4.4 设 E E E 和 F F F 是线性空间，设 U = ( u 1 , ⋯ , u n ) \mathcal U=(u_1, \cdots, u_n) U=(u1,⋯,un) 和 U ′ = ( u 1 ′ , ⋯ , u n ′ ) \mathcal U^{\prime} = (u^{\prime}_1, \cdots , u_{n}^{\prime}) U′=(u1′,⋯,un′) 是 E E E 的两组基，设 V = ( v 1 , ⋯ , v m ) \mathcal V = (v_1, \cdots, v_m) V=(v1,⋯,vm) 和 V ′ = ( v 1 ′ , ⋯ , v m ′ ) \mathcal V^{\prime} = (v^{\prime}_1, \cdots, v_{m}^{\prime}) V′=(v1′,⋯,vm′) 是 F F F 的两组基。设 P = P U ′ , U P=P_{\mathcal{U^{\prime}, U}} P=PU′,U 是基 U \mathcal U U 到 U ′ \mathcal U^{\prime} U′ 的 过渡矩阵 （基变换矩阵），设 Q = P V ′ , V Q=P_{\mathcal{V^{\prime}, V}} Q=PV′,V 是基 V \mathcal V V 到 V ′ \mathcal V^{\prime} V′ 的 过渡矩阵。对于任意的线性映射 f : E → F f:E \rightarrow F f:E→F ，设 M ( f ) = M U , V ( f ) M(f) = M_{\mathcal{U,V}}(f) M(f)=MU,V(f) 是 f f f 关于基 U \mathcal U U 和 V \mathcal V V 的矩阵，设 M ′ ( f ) = M U ′ , V ′ ( f ) M^{\prime}(f) = M_{\mathcal{U^{\prime}, V^{\prime}}}(f) M′(f)=MU′,V′(f) 是 f f f 关于基 U ′ \mathcal U^{\prime} U′ 和 V ′ \mathcal V^{\prime} V′ 的矩阵. 我们有

M ′ ( f ) = Q − 1 M ( f ) P , M^{\prime}(f) = Q^{-1}M(f)P, M′(f)=Q−1M(f)P,

或者更明确

M U ′ , V ′ ( f ) = P V ′ , V − 1 M U , V ( f ) P U ′ , U = P V , V ′ M U , V ( f ) P U ′ , U M_{\mathcal{U^{\prime}, V^{\prime}}}(f) = P_{\mathcal{V^{\prime}, V}}^{-1} M_{\mathcal{U,V}}(f)P_{\mathcal{U^{\prime}, U}} = P_{\mathcal{V, V^{\prime}}} M_{\mathcal{U,V}}(f)P_{\mathcal{U^{\prime}, U}} MU′,V′(f)=PV′,V−1MU,V(f)PU′,U=PV,V′MU,V(f)PU′,U

作为推论，我们得到如下结果

推论4.5 设 E E E 是线性空间， U = ( u 1 , ⋯ , u n ) \mathcal U=(u_1, \cdots, u_n) U=(u1,⋯,un) 和 U ′ = ( u 1 ′ , ⋯ , u n ′ ) \mathcal U^{\prime} = (u_{1}^{\prime}, \cdots, u_{n}^{\prime}) U′=(u1′,⋯,un′) 是 E E E 的两组基。设 P = P U ′ , U P=P_{\mathcal{U^{\prime}, U}} P=PU′,U 是基 U \mathcal U U 到 U ′ \mathcal U^{\prime} U′ 的过渡矩阵。对于任意线性映射 f : E → E f: E\rightarrow E f:E→E , 设 M ( f ) = M U ( F ) M(f) = M_{\mathcal U}(F) M(f)=MU(F) 是 f f f 关于基 U \mathcal U U 的矩阵，设 M ′ ( f ) = M U ′ ( f ) M^{\prime}(f)=M_{\mathcal U^{\prime}}(f) M′(f)=MU′(f) 是 f f f 关于基 U ′ \mathcal U^{\prime} U′ 的矩阵，我们有

M ′ = P − 1 M ( f ) P , M^{\prime} = P^{-1}M(f)P, M′=P−1M(f)P,

或者更明确

M U ′ ( f ) = P U ′ , U − 1 M U ( f ) P U ′ , U = P U , U ′ M U ( f ) P U ′ , U M_{\mathcal U^{\prime}}(f)=P_{\mathcal{U^{\prime}, U}}^{-1}M_{\mathcal U}(f)P_{\mathcal{U^{\prime}, U}} = P_{U, \mathcal{U^{\prime}}}M_{\mathcal U}(f) P_{\mathcal{U^{\prime}, U}} MU′(f)=PU′,U−1MU(f)PU′,U=PU,U′MU(f)PU′,U

例子

设 E = R 2 E = R^2 E=R2 , U = ( e 1 , e 2 ) \mathcal U = (e_1, e_2) U=(e1,e2) 其中 e 1 = ( 1 , 0 ) , e 2 = ( 0 , 1 ) e_1 = (1,0), e_2 = (0, 1) e1=(1,0),e2=(0,1) 是 E E E 的标准基向量，设 V = ( v 1 , v 2 ) = ( e 1 , e 1 − e 2 ) \mathcal V = (v_1, v_2) = (e_1, e_1 - e_2) V=(v1,v2)=(e1,e1−e2) , 设 A = ( 2 1 0 1 ) . A = \begin{pmatrix}2 & 1 \\ 0 & 1\end{pmatrix}. A=(2011). 从 U \mathcal U U 到 V \mathcal V V 的过渡矩阵 P = P V , U P=P_{\mathcal{V, U}} P=PV,U 是 P = ( 1 1 0 − 1 ) , P=\begin{pmatrix}1 & 1 \\ 0 & -1\end{pmatrix}, P=(101−1), 我们检验到 P − 1 = P . P^{-1} = P. P−1=P. 因此，在基 V \mathcal V V 中，由矩阵 A A A 表示的线性映射 f f f 的矩阵为 A ′ = P − 1 A P = P A P = ( 1 1 0 − 1 ) ( 2 1 0 1 ) ( 1 1 0 − 1 ) = ( 2 0 0 1 ) = D A^{\prime} = P^{-1}AP = PAP=\begin{pmatrix}1 & 1 \\ 0 & -1\end{pmatrix}\begin{pmatrix}2 & 1 \\ 0 & 1\end{pmatrix}\begin{pmatrix}1 & 1 \\ 0 & -1\end{pmatrix} = \begin{pmatrix}2 & 0 \\ 0 & 1\end{pmatrix}=D A′=P−1AP=PAP=(101−1)(2011)(101−1)=(2001)=D 是一个对角矩阵。在基 V \mathcal V V 中，很清楚 f f f 的作用是什么: 它是 v 1 v_1 v1 方向上的 2 2 2 倍, v 2 v_2 v2 方向上的单位向量。观察 v 1 v_1 v1 和 v 2 v_2 v2 是不正交的。

我们对角化了矩阵 A A A ，对角项 2 2 2 和 1 1 1 是 A A A (和 f f f )的 特征值， v 1 v_1 v1 和 v 2 v_2 v2 是对应的 特征向量。我们稍后会回到特征值和特征向量。

上面的例子说明了同一个线性映射可以用不同的矩阵来表示。这建议作出以下定义:

定义4.5 两个 n × n n×n n×n 矩阵 A A A 和 B B B 相似当且仅当有一个可逆矩阵 P P P ，使得 B = P − 1 A P . B=P^{−1} A P. B=P−1AP.

相似性是等价关系，这是很容易验证的. 从我们之前的考虑，两个 n × n n×n n×n 矩阵 A A A 和 B B B 是相似的，当且仅当，它们代表了关于两个 不同基 的 相同线性映射。下面这个令人惊讶的事实可以显示出来：每个方阵 A A A 都相似于它的转置 A T A^{T} AT 。证明需要高级的概念( J o r d a n Jordan Jordan 形式或相似不变量)。

如果 U = ( u 1 , ⋯ , u n ) \mathcal U = (u_1, \cdots, u_n) U=(u1,⋯,un) 和 V = ( v 1 , ⋯ , v n ) \mathcal V = (v_1, \cdots, v_n) V=(v1,⋯,vn) 是 E E E 的两组基，从 U \mathcal U U 到 V \mathcal V V 的基变换矩阵( 过渡矩阵 )为

P = P V , U = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ) P = P_{\mathcal{V, U}} = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{pmatrix} P=PV,U=⎝⎜⎜⎜⎛a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎠⎟⎟⎟⎞

它的第 j j j 列由 v j v_j vj 在基 ( u 1 , ⋯ , u n ) (u_1, \cdots, u_n) (u1,⋯,un) 上的坐标组成, 这意味着

v j = ∑ i = 1 n a i j u i , v_j = \sum_{i=1}^{n}a_{ij}u_i, vj=i=1∑naijui,

扩展矩阵表示法并将 E n E^n En 中的向量 ( v 1 ⋮ v n ) \begin{pmatrix}v_1 \\ \vdots \\ v_n \end{pmatrix} ⎝⎜⎛v1⋮vn⎠⎟⎞ 表示为一个矩阵与 E n E^n En 中的向量 ( u 1 ⋮ u n ) \begin{pmatrix}u_1 \\ \vdots \\ u_n \end{pmatrix} ⎝⎜⎛u1⋮un⎠⎟⎞ 的乘积是很自然的，即为

( v 1 ⋮ v n ) = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ) T ( u 1 ⋮ u n ) = ( a 11 a 21 ⋯ a n 1 a 12 a 22 ⋯ a n 2 ⋮ ⋮ ⋱ ⋮ a 1 n a 2 n ⋯ a n n ) ( u 1 ⋮ u n ) \begin{pmatrix}v_1 \\ \vdots \\ v_n \end{pmatrix} = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{pmatrix}^{T} \begin{pmatrix}u_1 \\ \vdots \\ u_n \end{pmatrix} = \begin{pmatrix} a_{11} & a_{21} & \cdots & a_{n1} \\ a_{12} & a_{22} & \cdots & a_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \cdots & a_{nn} \end{pmatrix} \begin{pmatrix}u_1 \\ \vdots \\ u_n \end{pmatrix} ⎝⎜⎛v1⋮vn⎠⎟⎞=⎝⎜⎜⎜⎛a11a21⋮an1a12a22⋮an2⋯⋯⋱⋯a1na2n⋮ann⎠⎟⎟⎟⎞T⎝⎜⎛u1⋮un⎠⎟⎞=⎝⎜⎜⎜⎛a11a12⋮a1na21a22⋮a2n⋯⋯⋱⋯an1an2⋮ann⎠⎟⎟⎟⎞⎝⎜⎛u1⋮un⎠⎟⎞

这一观察结果如下: 如果 U = ( u 1 , ⋯ , u n ) \mathcal U = (u_1, \cdots, u_n) U=(u1,⋯,un) 和 V = ( v 1 , ⋯ , v n ) \mathcal V = (v_1, \cdots, v_n) V=(v1,⋯,vn) 是 E E E 的两组基，如果

( v 1 ⋮ v n ) = A ( u 1 ⋮ u n ) \begin{pmatrix} v_1 \\ \vdots \\ v_n\end{pmatrix} = A \begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} ⎝⎜⎛v1⋮vn⎠⎟⎞=A⎝⎜⎛u1⋮un⎠⎟⎞

既是

v i = ∑ j = 1 n a i j u j v_i = \sum_{j = 1}^na_{ij} u_j vi=j=1∑naijuj

对任何向量 w ∈ E w \in E w∈E ，如果

w = ∑ i = 1 n x i u i = ∑ k = 1 n y k v k w = \sum_{i=1}^nx_iu_i = \sum_{k=1}^ny_kv_k w=i=1∑nxiui=k=1∑nykvk

那么

( x 1 ⋮ x n ) = A T ( y 1 ⋮ y n ) \begin{pmatrix} x_1 \\ \vdots \\ x_n\end{pmatrix} = A^{T}\begin{pmatrix} y_1 \\ \vdots \\ y_n\end{pmatrix} ⎝⎜⎛x1⋮xn⎠⎟⎞=AT⎝⎜⎛y1⋮yn⎠⎟⎞

所以

( y 1 ⋮ y n ) = ( A T ) − 1 ( x 1 ⋮ x n ) \begin{pmatrix} y_1 \\ \vdots \\ y_n\end{pmatrix} = \left(A^{T}\right)^{-1}\begin{pmatrix} x_1 \\ \vdots \\ x_n\end{pmatrix} ⎝⎜⎛y1⋮yn⎠⎟⎞=(AT)−1⎝⎜⎛x1⋮xn⎠⎟⎞

很容易发现 ( A T ) − 1 = ( A − 1 ) T \left(A^{T}\right)^{-1} = \left(A^{-1}\right)^{T} (AT)−1=(A−1)T . 另外，如果 U = ( u 1 , ⋯ , u n ) , V = ( v 1 , ⋯ , v n ) \mathcal U = (u_1, \cdots, u_n), \mathcal V = (v_1, \cdots, v_n) U=(u1,⋯,un),V=(v1,⋯,vn) 和 W = ( w 1 , ⋯ , w n ) \mathcal W = (w_1, \cdots, w_n) W=(w1,⋯,wn) 是 E E E 的三组基， U \mathcal U U 到 V \mathcal V V 的过渡矩阵为 P = P V , U P = P_{\mathcal{V, U}} P=PV,U ; V \mathcal V V 到 W \mathcal W W 的过渡矩阵为 Q = P W , V Q = P_{\mathcal{W, V}} Q=PW,V , 那么

( v 1 ⋮ v n ) = P T ( u 1 ⋮ u n ) , ( w 1 ⋮ w n ) = Q T ( v 1 ⋮ v n ) , \begin{pmatrix} v_1 \\ \vdots \\ v_n\end{pmatrix} = P^{T} \begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} , \begin{pmatrix} w_1 \\ \vdots \\ w_n\end{pmatrix} = Q^{T} \begin{pmatrix} v_1 \\ \vdots \\ v_n\end{pmatrix}, ⎝⎜⎛v1⋮vn⎠⎟⎞=PT⎝⎜⎛u1⋮un⎠⎟⎞,⎝⎜⎛w1⋮wn⎠⎟⎞=QT⎝⎜⎛v1⋮vn⎠⎟⎞,

因此

( w 1 ⋮ w n ) = Q T P T ( u 1 ⋮ u n ) = ( P Q ) T ( u 1 ⋮ u n ) \begin{pmatrix} w_1 \\ \vdots \\ w_n\end{pmatrix} = Q^{T}P^{T}\begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} = (PQ)^{T}\begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} ⎝⎜⎛w1⋮wn⎠⎟⎞=QTPT⎝⎜⎛u1⋮un⎠⎟⎞=(PQ)T⎝⎜⎛u1⋮un⎠⎟⎞

这意味着从 U \mathcal U U 到 W \mathcal W W 的基变换矩阵 P W , U P_{\mathcal{W, U}} PW,U 是 P Q PQ PQ 。这证明

p W , U = P V , U P W , V . p_{\mathcal{W,U}} = P_{\mathcal{V,U}}P_{\mathcal{W,V}}. pW,U=PV,UPW,V.

尽管矩阵是不可或缺的，因为它们是线性代数应用中的主要工具，但我们不应该忘记以下事实：

线性映射更为基本，因为它们是不依赖于基选择的内在对象 。因此，我们建议读者试着从线性映射的角度来思考，而不是将一切简化为矩阵。

根据我们的经验，这在证明线性映射和矩阵的结果时特别有效，其中涉及线性映射的证明通常更“概念化”。这些证明通常更一般，因为它们不依赖于维数有限的事实。此外，与其将矩阵分解视为纯粹的代数运算，不如将其视为 几何分解。这就是 S V D SVD SVD 的情况，它在几何术语中表示，每个线性映射都可以分解为一个旋转，然后沿正交轴重新缩放，然后再进行另一个旋转。

毕竟，矩阵是线性映射的表示形式，矩阵的大多数分解反映了这样一个事实，即当基（或多个基）的选择合适时，线性映射是由具有特殊形状的矩阵表示的。问题是找到这样的基。

不过，对于初学者来说，矩阵有着某种不可抗拒的吸引力，我们承认需要一定的练习才能达到处理线性映射变得更自然的程度。我们仍然推荐它！例如，尝试将矩阵表示的结果转换为线性映射表示的结果。每当我们尝试这个练习时，我们都学到了一些东西。

此外，请始终记住 线性映射本质上是几何的，它们作用于空间。

码农公寓

基变换对矩阵的影响

相关文章