人工智能数学基础: 15-基变换对矩阵的影响

基变换对矩阵的影响

下面的命题描述了基的变化对线性映射表示的影响。

命题4.4 设 E E E 和 F F F 是线性空间, 设 U = ( u 1 , ⋯   , u n ) \mathcal U=(u_1, \cdots, u_n) U=(u1​,⋯,un​) 和 U ′ = ( u 1 ′ , ⋯   , u n ′ ) \mathcal U^{\prime} = (u^{\prime}_1, \cdots , u_{n}^{\prime}) U′=(u1′​,⋯,un′​) 是 E E E 的两组基,设 V = ( v 1 , ⋯   , v m ) \mathcal V = (v_1, \cdots, v_m) V=(v1​,⋯,vm​) 和 V ′ = ( v 1 ′ , ⋯   , v m ′ ) \mathcal V^{\prime} = (v^{\prime}_1, \cdots, v_{m}^{\prime}) V′=(v1′​,⋯,vm′​) 是 F F F 的两组基。设 P = P U ′ , U P=P_{\mathcal{U^{\prime}, U}} P=PU′,U​ 是基 U \mathcal U U 到 U ′ \mathcal U^{\prime} U′ 的 过渡矩阵 (基变换矩阵),设 Q = P V ′ , V Q=P_{\mathcal{V^{\prime}, V}} Q=PV′,V​ 是基 V \mathcal V V 到 V ′ \mathcal V^{\prime} V′ 的 过渡矩阵。对于任意的线性映射 f : E → F f:E \rightarrow F f:E→F ,设 M ( f ) = M U , V ( f ) M(f) = M_{\mathcal{U,V}}(f) M(f)=MU,V​(f) 是 f f f 关于基 U \mathcal U U 和 V \mathcal V V 的矩阵,设 M ′ ( f ) = M U ′ , V ′ ( f ) M^{\prime}(f) = M_{\mathcal{U^{\prime}, V^{\prime}}}(f) M′(f)=MU′,V′​(f) 是 f f f 关于基 U ′ \mathcal U^{\prime} U′ 和 V ′ \mathcal V^{\prime} V′ 的矩阵. 我们有

M ′ ( f ) = Q − 1 M ( f ) P , M^{\prime}(f) = Q^{-1}M(f)P, M′(f)=Q−1M(f)P,

或者更明确

M U ′ , V ′ ( f ) = P V ′ , V − 1 M U , V ( f ) P U ′ , U = P V , V ′ M U , V ( f ) P U ′ , U M_{\mathcal{U^{\prime}, V^{\prime}}}(f) = P_{\mathcal{V^{\prime}, V}}^{-1} M_{\mathcal{U,V}}(f)P_{\mathcal{U^{\prime}, U}} = P_{\mathcal{V, V^{\prime}}} M_{\mathcal{U,V}}(f)P_{\mathcal{U^{\prime}, U}} MU′,V′​(f)=PV′,V−1​MU,V​(f)PU′,U​=PV,V′​MU,V​(f)PU′,U​

作为推论,我们得到如下结果

推论4.5 设 E E E 是线性空间, U = ( u 1 , ⋯   , u n ) \mathcal U=(u_1, \cdots, u_n) U=(u1​,⋯,un​) 和 U ′ = ( u 1 ′ , ⋯   , u n ′ ) \mathcal U^{\prime} = (u_{1}^{\prime}, \cdots, u_{n}^{\prime}) U′=(u1′​,⋯,un′​) 是 E E E 的两组基。设 P = P U ′ , U P=P_{\mathcal{U^{\prime}, U}} P=PU′,U​ 是基 U \mathcal U U 到 U ′ \mathcal U^{\prime} U′ 的过渡矩阵。对于任意线性映射 f : E → E f: E\rightarrow E f:E→E , 设 M ( f ) = M U ( F ) M(f) = M_{\mathcal U}(F) M(f)=MU​(F) 是 f f f 关于基 U \mathcal U U 的矩阵,设 M ′ ( f ) = M U ′ ( f ) M^{\prime}(f)=M_{\mathcal U^{\prime}}(f) M′(f)=MU′​(f) 是 f f f 关于基 U ′ \mathcal U^{\prime} U′ 的矩阵,我们有

M ′ = P − 1 M ( f ) P , M^{\prime} = P^{-1}M(f)P, M′=P−1M(f)P,

或者更明确

M U ′ ( f ) = P U ′ , U − 1 M U ( f ) P U ′ , U = P U , U ′ M U ( f ) P U ′ , U M_{\mathcal U^{\prime}}(f)=P_{\mathcal{U^{\prime}, U}}^{-1}M_{\mathcal U}(f)P_{\mathcal{U^{\prime}, U}} = P_{U, \mathcal{U^{\prime}}}M_{\mathcal U}(f) P_{\mathcal{U^{\prime}, U}} MU′​(f)=PU′,U−1​MU​(f)PU′,U​=PU,U′​MU​(f)PU′,U​

例子

设 E = R 2 E = R^2 E=R2 , U = ( e 1 , e 2 ) \mathcal U = (e_1, e_2) U=(e1​,e2​) 其中 e 1 = ( 1 , 0 ) , e 2 = ( 0 , 1 ) e_1 = (1,0), e_2 = (0, 1) e1​=(1,0),e2​=(0,1) 是 E E E 的标准基向量,设 V = ( v 1 , v 2 ) = ( e 1 , e 1 − e 2 ) \mathcal V = (v_1, v_2) = (e_1, e_1 - e_2) V=(v1​,v2​)=(e1​,e1​−e2​) , 设 A = ( 2 1 0 1 ) . A = \begin{pmatrix}2 & 1 \\ 0 & 1\end{pmatrix}. A=(20​11​). 从 U \mathcal U U 到 V \mathcal V V 的过渡矩阵 P = P V , U P=P_{\mathcal{V, U}} P=PV,U​ 是 P = ( 1 1 0 − 1 ) , P=\begin{pmatrix}1 & 1 \\ 0 & -1\end{pmatrix}, P=(10​1−1​), 我们检验到 P − 1 = P . P^{-1} = P. P−1=P. 因此,在基 V \mathcal V V 中,由矩阵 A A A 表示的线性映射 f f f 的矩阵为 A ′ = P − 1 A P = P A P = ( 1 1 0 − 1 ) ( 2 1 0 1 ) ( 1 1 0 − 1 ) = ( 2 0 0 1 ) = D A^{\prime} = P^{-1}AP = PAP=\begin{pmatrix}1 & 1 \\ 0 & -1\end{pmatrix}\begin{pmatrix}2 & 1 \\ 0 & 1\end{pmatrix}\begin{pmatrix}1 & 1 \\ 0 & -1\end{pmatrix} = \begin{pmatrix}2 & 0 \\ 0 & 1\end{pmatrix}=D A′=P−1AP=PAP=(10​1−1​)(20​11​)(10​1−1​)=(20​01​)=D 是一个对角矩阵。在基 V \mathcal V V 中,很清楚 f f f 的作用是什么: 它是 v 1 v_1 v1​ 方向上的 2 2 2 倍, v 2 v_2 v2​ 方向上的单位向量。观察 v 1 v_1 v1​ 和 v 2 v_2 v2​ 是不正交的。

我们对角化了矩阵 A A A ,对角项 2 2 2 和 1 1 1 是 A A A (和 f f f )的 特征值, v 1 v_1 v1​ 和 v 2 v_2 v2​ 是对应的 特征向量。我们稍后会回到特征值和特征向量。

上面的例子说明了同一个线性映射可以用不同的矩阵来表示。这建议作出以下定义:

定义4.5 两个 n × n n×n n×n 矩阵 A A A 和 B B B 相似 当且仅当有一个可逆矩阵 P P P ,使得 B = P − 1 A P . B=P^{−1} A P. B=P−1AP.

相似性是等价关系,这是很容易验证的. 从我们之前的考虑,两个 n × n n×n n×n 矩阵 A A A 和 B B B 是相似的,当且仅当,它们代表了关于两个 不同基相同线性映射。下面这个令人惊讶的事实可以显示出来:每个方阵 A A A 都相似于它的转置 A T A^{T} AT 。 证明需要高级的概念( J o r d a n Jordan Jordan 形式或相似不变量)。

如果 U = ( u 1 , ⋯   , u n ) \mathcal U = (u_1, \cdots, u_n) U=(u1​,⋯,un​) 和 V = ( v 1 , ⋯   , v n ) \mathcal V = (v_1, \cdots, v_n) V=(v1​,⋯,vn​) 是 E E E 的两组基,从 U \mathcal U U 到 V \mathcal V V 的基变换矩阵( 过渡矩阵 )为

P = P V , U = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ) P = P_{\mathcal{V, U}} = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{pmatrix} P=PV,U​=⎝⎜⎜⎜⎛​a11​a21​⋮an1​​a12​a22​⋮an2​​⋯⋯⋱⋯​a1n​a2n​⋮ann​​⎠⎟⎟⎟⎞​

它的第 j j j 列由 v j v_j vj​ 在基 ( u 1 , ⋯   , u n ) (u_1, \cdots, u_n) (u1​,⋯,un​) 上的坐标组成, 这意味着

v j = ∑ i = 1 n a i j u i , v_j = \sum_{i=1}^{n}a_{ij}u_i, vj​=i=1∑n​aij​ui​,

扩展矩阵表示法并将 E n E^n En 中的向量 ( v 1 ⋮ v n ) \begin{pmatrix}v_1 \\ \vdots \\ v_n \end{pmatrix} ⎝⎜⎛​v1​⋮vn​​⎠⎟⎞​ 表示为一个矩阵与 E n E^n En 中的向量 ( u 1 ⋮ u n ) \begin{pmatrix}u_1 \\ \vdots \\ u_n \end{pmatrix} ⎝⎜⎛​u1​⋮un​​⎠⎟⎞​ 的乘积是很自然的,即为

( v 1 ⋮ v n ) = ( a 11 a 12 ⋯ a 1 n a 21 a 22 ⋯ a 2 n ⋮ ⋮ ⋱ ⋮ a n 1 a n 2 ⋯ a n n ) T ( u 1 ⋮ u n ) = ( a 11 a 21 ⋯ a n 1 a 12 a 22 ⋯ a n 2 ⋮ ⋮ ⋱ ⋮ a 1 n a 2 n ⋯ a n n ) ( u 1 ⋮ u n ) \begin{pmatrix}v_1 \\ \vdots \\ v_n \end{pmatrix} = \begin{pmatrix} a_{11} & a_{12} & \cdots & a_{1n} \\ a_{21} & a_{22} & \cdots & a_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ a_{n1} & a_{n2} & \cdots & a_{nn} \end{pmatrix}^{T} \begin{pmatrix}u_1 \\ \vdots \\ u_n \end{pmatrix} = \begin{pmatrix} a_{11} & a_{21} & \cdots & a_{n1} \\ a_{12} & a_{22} & \cdots & a_{n2} \\ \vdots & \vdots & \ddots & \vdots \\ a_{1n} & a_{2n} & \cdots & a_{nn} \end{pmatrix} \begin{pmatrix}u_1 \\ \vdots \\ u_n \end{pmatrix} ⎝⎜⎛​v1​⋮vn​​⎠⎟⎞​=⎝⎜⎜⎜⎛​a11​a21​⋮an1​​a12​a22​⋮an2​​⋯⋯⋱⋯​a1n​a2n​⋮ann​​⎠⎟⎟⎟⎞​T⎝⎜⎛​u1​⋮un​​⎠⎟⎞​=⎝⎜⎜⎜⎛​a11​a12​⋮a1n​​a21​a22​⋮a2n​​⋯⋯⋱⋯​an1​an2​⋮ann​​⎠⎟⎟⎟⎞​⎝⎜⎛​u1​⋮un​​⎠⎟⎞​

这一观察结果如下: 如果 U = ( u 1 , ⋯   , u n ) \mathcal U = (u_1, \cdots, u_n) U=(u1​,⋯,un​) 和 V = ( v 1 , ⋯   , v n ) \mathcal V = (v_1, \cdots, v_n) V=(v1​,⋯,vn​) 是 E E E 的两组基,如果

( v 1 ⋮ v n ) = A ( u 1 ⋮ u n ) \begin{pmatrix} v_1 \\ \vdots \\ v_n\end{pmatrix} = A \begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} ⎝⎜⎛​v1​⋮vn​​⎠⎟⎞​=A⎝⎜⎛​u1​⋮un​​⎠⎟⎞​

既是

v i = ∑ j = 1 n a i j u j v_i = \sum_{j = 1}^na_{ij} u_j vi​=j=1∑n​aij​uj​

对任何向量 w ∈ E w \in E w∈E ,如果

w = ∑ i = 1 n x i u i = ∑ k = 1 n y k v k w = \sum_{i=1}^nx_iu_i = \sum_{k=1}^ny_kv_k w=i=1∑n​xi​ui​=k=1∑n​yk​vk​

那么

( x 1 ⋮ x n ) = A T ( y 1 ⋮ y n ) \begin{pmatrix} x_1 \\ \vdots \\ x_n\end{pmatrix} = A^{T}\begin{pmatrix} y_1 \\ \vdots \\ y_n\end{pmatrix} ⎝⎜⎛​x1​⋮xn​​⎠⎟⎞​=AT⎝⎜⎛​y1​⋮yn​​⎠⎟⎞​

所以

( y 1 ⋮ y n ) = ( A T ) − 1 ( x 1 ⋮ x n ) \begin{pmatrix} y_1 \\ \vdots \\ y_n\end{pmatrix} = \left(A^{T}\right)^{-1}\begin{pmatrix} x_1 \\ \vdots \\ x_n\end{pmatrix} ⎝⎜⎛​y1​⋮yn​​⎠⎟⎞​=(AT)−1⎝⎜⎛​x1​⋮xn​​⎠⎟⎞​

很容易发现 ( A T ) − 1 = ( A − 1 ) T \left(A^{T}\right)^{-1} = \left(A^{-1}\right)^{T} (AT)−1=(A−1)T . 另外,如果 U = ( u 1 , ⋯   , u n ) , V = ( v 1 , ⋯   , v n ) \mathcal U = (u_1, \cdots, u_n), \mathcal V = (v_1, \cdots, v_n) U=(u1​,⋯,un​),V=(v1​,⋯,vn​) 和 W = ( w 1 , ⋯   , w n ) \mathcal W = (w_1, \cdots, w_n) W=(w1​,⋯,wn​) 是 E E E 的三组基, U \mathcal U U 到 V \mathcal V V 的过渡矩阵为 P = P V , U P = P_{\mathcal{V, U}} P=PV,U​ ; V \mathcal V V 到 W \mathcal W W 的过渡矩阵为 Q = P W , V Q = P_{\mathcal{W, V}} Q=PW,V​ , 那么

( v 1 ⋮ v n ) = P T ( u 1 ⋮ u n ) , ( w 1 ⋮ w n ) = Q T ( v 1 ⋮ v n ) , \begin{pmatrix} v_1 \\ \vdots \\ v_n\end{pmatrix} = P^{T} \begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} , \begin{pmatrix} w_1 \\ \vdots \\ w_n\end{pmatrix} = Q^{T} \begin{pmatrix} v_1 \\ \vdots \\ v_n\end{pmatrix}, ⎝⎜⎛​v1​⋮vn​​⎠⎟⎞​=PT⎝⎜⎛​u1​⋮un​​⎠⎟⎞​,⎝⎜⎛​w1​⋮wn​​⎠⎟⎞​=QT⎝⎜⎛​v1​⋮vn​​⎠⎟⎞​,

因此

( w 1 ⋮ w n ) = Q T P T ( u 1 ⋮ u n ) = ( P Q ) T ( u 1 ⋮ u n ) \begin{pmatrix} w_1 \\ \vdots \\ w_n\end{pmatrix} = Q^{T}P^{T}\begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} = (PQ)^{T}\begin{pmatrix} u_1 \\ \vdots \\ u_n\end{pmatrix} ⎝⎜⎛​w1​⋮wn​​⎠⎟⎞​=QTPT⎝⎜⎛​u1​⋮un​​⎠⎟⎞​=(PQ)T⎝⎜⎛​u1​⋮un​​⎠⎟⎞​

这意味着从 U \mathcal U U 到 W \mathcal W W 的基变换矩阵 P W , U P_{\mathcal{W, U}} PW,U​ 是 P Q PQ PQ 。这证明

p W , U = P V , U P W , V . p_{\mathcal{W,U}} = P_{\mathcal{V,U}}P_{\mathcal{W,V}}. pW,U​=PV,U​PW,V​.

尽管矩阵是不可或缺的,因为它们是线性代数应用中的主要工具,但我们不应该忘记以下事实:

  • 线性映射更为基本,因为它们是不依赖于基选择的内在对象 。因此,我们建议读者试着从线性映射的角度来思考,而不是将一切简化为矩阵。

根据我们的经验,这在证明线性映射和矩阵的结果时特别有效,其中涉及线性映射的证明通常更“概念化”。这些证明通常更一般,因为它们不依赖于维数有限的事实。此外,与其将矩阵分解视为纯粹的代数运算,不如将其视为 几何分解。这就是 S V D SVD SVD 的情况,它在几何术语中表示,每个线性映射都可以分解为一个旋转,然后沿正交轴重新缩放,然后再进行另一个旋转。

毕竟,矩阵是线性映射的表示形式,矩阵的大多数分解反映了这样一个事实,即当基(或多个基)的选择合适时,线性映射是由具有特殊形状的矩阵表示的。问题是找到这样的基。

不过,对于初学者来说,矩阵有着某种不可抗拒的吸引力,我们承认需要一定的练习才能达到处理线性映射变得更自然的程度。我们仍然推荐它!例如,尝试将矩阵表示的结果转换为线性映射表示的结果。每当我们尝试这个练习时,我们都学到了一些东西。

此外,请始终记住 线性映射本质上是几何的,它们作用于空间

上一篇:题解 UVA306 【Cipher】


下一篇:人工智能数学基础: 13-线性映射的合成和矩阵乘法