机器学习数学基础

2024-02-10 18:12:22

机器学习1 机器学习数学基础

目录

机器学习1 机器学习数学基础

1. 概率统计

（1）常见的概率分布

a. 伯努利分布：0-1分布

b. 二项分布：n次伯努利分布，各次实验之间独立

c. 均匀分布

d. 高斯分布（正态）

e. 指数分布

（2）多变量概率分布

（3）全概率公式与贝叶斯公式

（4）方差与协方差

2. 矩阵

（1）矩阵基础

a. 矩阵

b. 张量

c. 矩阵的秩(Rank)

d. 矩阵的逆

e. 矩阵的广义逆矩阵

f. 矩阵的特征值、特征向量、迹、行列式

（2）矩阵分解

a. 矩阵特征值分解

b. 矩阵奇异值分解

3. 信息论

（1）基础知识

a. 熵(Entropy)

b. 联合熵

c. 条件熵

d. 互信息

e. 相对熵

f. 交叉熵

1. 概率统计

（1）常见的概率分布

a. 伯努利分布：0-1分布

P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p, P(X=0)=1-p P(X=1)=p,P(X=0)=1−p.

b. 二项分布：n次伯努利分布，各次实验之间独立

P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnkpk(1−p)n−k
k次试验，每次试验事件发生概率为 p p p，不发生概率为 1 − p 1-p 1−p

c. 均匀分布

在给定区间[a, b]内分布概率是等可能的，参数为a、b，概率密度函数为 p ( x ) = 1 b − a , a < x < b p(x) = \frac{1}{b-a}, \quad a < x <b p(x)=b−a1,a<x<b

d. 高斯分布（正态）

由均值μ和标准差σ决定其分布，概率密度函数为： p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2π σ1e−2σ2(x−μ)2

e. 指数分布

常用来表示独立随机事件发生的时间间隔，参数为λ>0的指数分布概率密度函数为： p ( x ) = λ e − λ x x ≥ 0 p(x) = \lambda e^{-\lambda x} \quad x \geq 0 p(x)=λe−λxx≥0
指数分布重要特征是无记忆性。

（2）多变量概率分布

条件概率：事件X在事件Y发生的条件下发生的概率，P(X|Y)
联合概率：表示两个事件X和Y共同发生的概率，P(X,Y)
条件概率和联合概率的性质： P ( Y ∣ X ) = P ( Y , X ) P ( X ) P ( X ) > 0 P(Y|X) = \frac{P(Y,X)}{P(X)} \quad P(X ) > 0 P(Y∣X)=P(X)P(Y,X)P(X)>0.
推广到 n 个事件，条件概率的链式法则： P ( X 1 , X 2 , … , X n ) = P ( X 1 ∣ X 2 , … , X n ) P ( X 2 ∣ X 3 , X 4 , … , X n ) … P ( X n − 1 ∣ X n ) P ( X n ) = P ( X n ) ∏ i = 1 n − 1 P ( X i ∣ X i + 1 , … , X n ) \begin{aligned} P\left(X_{1}, X_{2}, \ldots, X_{n}\right) &=P\left(X_{1} \mid X_{2}, \ldots, X_{n}\right) P\left(X_{2} \mid X_{3}, X_{4}, \ldots, X_{n}\right) \ldots P\left(X_{n-1} \mid X_{n}\right) P\left(X_{n}\right) \ &=P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} P(X1,X2,…,Xn)=P(X1∣X2,…,Xn)P(X2∣X3,X4,…,Xn)…P(Xn−1∣Xn)P(Xn) =P(Xn)i=1∏n−1P(Xi∣Xi+1,…,Xn)
先验概率(Prior probability)：根据以往经验和分析得到的概率，在事件发生前已知，它往往作为“由因求果”问题中的“因”出现。

后验概率(Posterior probability)：指得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的“因”，后验概率是基于新的信息，修正后来的先验概率所获得的更接近实际情况的概率估计。

（3）全概率公式与贝叶斯公式

全概率公式：设事件 A i {A_i} Ai是样本空间 Ω Ω Ω 的一个划分，且 P ( A i ) > 0 ( i = 1 , 2 , . . . , n ) P(A_i)>0(i=1,2,...,n) P(Ai)>0(i=1,2,...,n)，那么： P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i = 1}^nP(A_i)P(B|A_i) P(B)=∑i=1nP(Ai)P(B∣Ai).

贝叶斯公式：全概率公式给我们提供了计算后验概率的途径，即贝叶斯公式 P ( A i ∣ B ) = P ( B ∣ A i ) P ( A i ) P ( B ) = P ( B ∣ A i ) P ( A i ) ∑ j = 1 n P ( A j ) P ( B ∣ A j ) P\left(\mathrm{~A}{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{P(\mathrm{~B})}=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{\sum{j=1}^{n} P\left(\mathrm{~A}{j}\right) P\left(\mathrm{~B} \mid \mathrm{A}{j}\right)} P( Ai∣B)=P( B)P( B∣Ai)P( Ai)=∑j=1nP( Aj)P( B∣Aj)P( B∣Ai)P( Ai)

（4）方差与协方差

方差：衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差，是各个样本数据分别与其平均数之差的平方和的平均数：
V a r ( X ) = E { [ x − E ( x ) ] 2 } = E ( x 2 ) − [ E ( x ) ] 2 Var\left( X \right) =E\left\{ \left[ x-E\left( x \right) \right] ^2 \right\} =E\left( x^2 \right) -\left[ E\left( x \right) \right] ^2 Var(X)=E{[x−E(x)]2}=E(x2)−[E(x)]2

协方差：衡量两个随机变量X和Y直接的总体误差：
C o v ( X , Y ) = E { [ x − E ( x ) ] [ y − E ( y ) ] } = E ( x y ) − E ( x ) E ( y ) Cov\left( X,Y \right) =E\left\{ \left[ x-E\left( x \right) \right] \left[ y-E\left( y \right) \right] \right\} =E\left( xy \right) -E\left( x \right) E\left( y \right) Cov(X,Y)=E{[x−E(x)][y−E(y)]}=E(xy)−E(x)E(y)

2. 矩阵

（1）矩阵基础

a. 矩阵

二维数组，其中每一个元素一般由两个索引来确定一般用大写变量表示，m行n列的实数矩阵，记做 A ∈ R m × n A \in R_{m \times n} A∈Rm×n。

b. 张量

c. 矩阵的秩(Rank)

矩阵列向量中的极大线性无关组的数目，记作矩阵的列秩，同样可以定义行秩。行秩=列秩=矩阵的秩，通常记作rank(A)。

d. 矩阵的逆

若矩阵A为方阵，当 r a n k ( A n × n ) < n rank(A_{n×n})<n rank(An×n)<n时，称A为奇异矩阵或不可逆矩阵；
若矩阵A为方阵，当 r a n k ( A n × n ) = n rank(A_{n×n})=n rank(An×n)=n时，称A为非奇异矩阵或可逆矩阵，其逆矩阵 A − 1 A^{-1} A−1 满足以下条件，则称 A − 1 A^{-1} A−1 为矩阵A的逆矩阵： A A − 1 = A − 1 A = I n AA^{-1} = A^{-1}A = I_n AA−1=A−1A=In 其中 I n I_n In 是 n × n n×n n×n 的单位阵。

e. 矩阵的广义逆矩阵

如果矩阵不为方阵或者是奇异矩阵，不存在逆矩阵，但是可以计算其广义逆矩阵或者伪逆矩阵；对于矩阵A，如果存在矩阵 B B B 使得 A B A = A ABA=A ABA=A，则称 B B B 为 A A A 的广义逆矩阵。

f. 矩阵的特征值、特征向量、迹、行列式

若矩阵 A A A 为方阵，则存在非零向量 x x x 和常数 λ \lambda λ 满足 A x = λ x Ax=\lambda x Ax=λx，则称 $ \lambda$ 为矩阵 $ A$ 的一个特征值， x x x 为矩阵 A A A 关于 λ \lambda λ 的特征向量。
A n × n A_{n \times n} An×n 的矩阵具有 n n n 个特征值， λ 1 ≤ λ 2 ≤ ⋯ ≤ λ n λ_1 ≤ λ_2 ≤ ⋯ ≤ λ_n λ1≤λ2≤⋯≤λn 其对应的n个特征向量为

码农公寓