机器学习数学基础

机器学习1 机器学习数学基础

目录

1. 概率统计

(1)常见的概率分布

a. 伯努利分布:0-1分布

P ( X = 1 ) = p , P ( X = 0 ) = 1 − p P(X=1)=p, P(X=0)=1-p P(X=1)=p,P(X=0)=1−p.

b. 二项分布:n次伯努利分布,各次实验之间独立

P ( X = k ) = C n k p k ( 1 − p ) n − k P(X = k) = C_n^kp^k(1-p)^{n-k} P(X=k)=Cnk​pk(1−p)n−k
  k次试验,每次试验事件发生概率为 p p p,不发生概率为 1 − p 1-p 1−p

c. 均匀分布

  在给定区间[a, b]内分布概率是等可能的,参数为a、b,概率密度函数为 p ( x ) = 1 b − a , a < x < b p(x) = \frac{1}{b-a}, \quad a < x <b p(x)=b−a1​,a<x<b
机器学习数学基础

d. 高斯分布(正态)

  由均值μ和标准差σ决定其分布,概率密度函数为: p ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 p(x) = \frac{1}{\sqrt{2 \pi}\sigma}e^{-\frac{(x-\mu)^2}{2 \sigma^2}} p(x)=2π ​σ1​e−2σ2(x−μ)2​

e. 指数分布

  常用来表示独立随机事件发生的时间间隔,参数为λ>0的指数分布概率密度函数为: p ( x ) = λ e − λ x x ≥ 0 p(x) = \lambda e^{-\lambda x} \quad x \geq 0 p(x)=λe−λxx≥0
指数分布重要特征是无记忆性

(2)多变量概率分布

  条件概率:事件X在事件Y发生的条件下发生的概率,P(X|Y)
  联合概率:表示两个事件X和Y共同发生的概率,P(X,Y)
  条件概率和联合概率的性质: P ( Y ∣ X ) = P ( Y , X ) P ( X ) P ( X ) > 0 P(Y|X) = \frac{P(Y,X)}{P(X)} \quad P(X ) > 0 P(Y∣X)=P(X)P(Y,X)​P(X)>0.
  推广到 n 个事件,条件概率的链式法则: P ( X 1 , X 2 , … , X n ) = P ( X 1 ∣ X 2 , … , X n ) P ( X 2 ∣ X 3 , X 4 , … , X n ) … P ( X n − 1 ∣ X n ) P ( X n )   = P ( X n ) ∏ i = 1 n − 1 P ( X i ∣ X i + 1 , … , X n ) \begin{aligned} P\left(X_{1}, X_{2}, \ldots, X_{n}\right) &=P\left(X_{1} \mid X_{2}, \ldots, X_{n}\right) P\left(X_{2} \mid X_{3}, X_{4}, \ldots, X_{n}\right) \ldots P\left(X_{n-1} \mid X_{n}\right) P\left(X_{n}\right) \ &=P\left(X_{n}\right) \prod_{i=1}^{n-1} P\left(X_{i} \mid X_{i+1}, \ldots, X_{n}\right) \end{aligned} P(X1​,X2​,…,Xn​)​=P(X1​∣X2​,…,Xn​)P(X2​∣X3​,X4​,…,Xn​)…P(Xn−1​∣Xn​)P(Xn​) ​=P(Xn​)i=1∏n−1​P(Xi​∣Xi+1​,…,Xn​)​
  先验概率(Prior probability):根据以往经验和分析得到的概率,在事件发生前已知,它往往作为“由因求果”问题中的“因”出现。

  后验概率(Posterior probability):指得到“结果”的信息后重新修正的概率,是“执果寻因”问题中 的“因”,后验概率是基于新的信息,修正后来的先验概率所获得的更接近实际情况的概率估计。

(3)全概率公式与贝叶斯公式

  全概率公式:设事件 A i {A_i} Ai​是样本空间 Ω Ω Ω 的一个划分,且 P ( A i ) > 0 ( i = 1 , 2 , . . . , n ) P(A_i)>0(i=1,2,...,n) P(Ai​)>0(i=1,2,...,n),那么: P ( B ) = ∑ i = 1 n P ( A i ) P ( B ∣ A i ) P(B) = \sum_{i = 1}^nP(A_i)P(B|A_i) P(B)=∑i=1n​P(Ai​)P(B∣Ai​).

  贝叶斯公式:全概率公式给我们提供了计算后验概率的途径,即贝叶斯公式 P (   A i ∣ B ) = P (   B ∣ A i ) P (   A i ) P (   B ) = P (   B ∣ A i ) P (   A i ) ∑ j = 1 n P (   A j ) P (   B ∣ A j ) P\left(\mathrm{~A}{i} \mid \mathrm{B}\right)=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{P(\mathrm{~B})}=\frac{P\left(\mathrm{~B} \mid \mathrm{A}{i}\right) P\left(\mathrm{~A}{i}\right)}{\sum{j=1}^{n} P\left(\mathrm{~A}{j}\right) P\left(\mathrm{~B} \mid \mathrm{A}{j}\right)} P( Ai∣B)=P( B)P( B∣Ai)P( Ai)​=∑j=1nP( Aj)P( B∣Aj)P( B∣Ai)P( Ai)​

(4)方差与协方差

  方差:衡量随机变量与数学期望之间的偏离程度。统计中的方差则为样本方差,是各个样本数据分别与其平均数之差的平方和的平均数 :
V a r ( X ) = E { [ x − E ( x ) ] 2 } = E ( x 2 ) − [ E ( x ) ] 2 Var\left( X \right) =E\left\{ \left[ x-E\left( x \right) \right] ^2 \right\} =E\left( x^2 \right) -\left[ E\left( x \right) \right] ^2 Var(X)=E{[x−E(x)]2}=E(x2)−[E(x)]2

  协方差:衡量两个随机变量X和Y直接的总体误差:
C o v ( X , Y ) = E { [ x − E ( x ) ] [ y − E ( y ) ] } = E ( x y ) − E ( x ) E ( y ) Cov\left( X,Y \right) =E\left\{ \left[ x-E\left( x \right) \right] \left[ y-E\left( y \right) \right] \right\} =E\left( xy \right) -E\left( x \right) E\left( y \right) Cov(X,Y)=E{[x−E(x)][y−E(y)]}=E(xy)−E(x)E(y)

2. 矩阵

(1)矩阵基础

a. 矩阵

  二维数组,其中每一个元素一般由两个索引来确定一般用大写变量表示,m行n列的实数矩阵,记做 A ∈ R m × n A \in R_{m \times n} A∈Rm×n​。

b. 张量

机器学习数学基础

c. 矩阵的秩(Rank)

  矩阵列向量中的极大线性无关组的数目,记作矩阵的列秩,同样可以定义行秩。行秩=列秩=矩阵的秩,通常记作rank(A)。

d. 矩阵的逆

  若矩阵A为方阵,当 r a n k ( A n × n ) < n rank(A_{n×n})<n rank(An×n​)<n时,称A为奇异矩阵或不可逆矩阵;
  若矩阵A为方阵,当 r a n k ( A n × n ) = n rank(A_{n×n})=n rank(An×n​)=n时,称A为非奇异矩阵或可逆矩阵,其逆矩阵 A − 1 A^{-1} A−1 满足以下条件,则称 A − 1 A^{-1} A−1 为矩阵A的逆矩阵: A A − 1 = A − 1 A = I n AA^{-1} = A^{-1}A = I_n AA−1=A−1A=In​ 其中 I n I_n In​ 是 n × n n×n n×n 的单位阵。

e. 矩阵的广义逆矩阵

  如果矩阵不为方阵或者是奇异矩阵,不存在逆矩阵,但是可以计算其广义逆矩阵或者伪逆矩阵;对于矩阵A,如果存在矩阵 B B B 使得 A B A = A ABA=A ABA=A,则称 B B B 为 A A A 的广义逆矩阵。

f. 矩阵的特征值、特征向量、迹、行列式

  若矩阵 A A A 为方阵,则存在非零向量 x x x 和常数 λ \lambda λ 满足 A x = λ x Ax=\lambda x Ax=λx,则称 $ \lambda$ 为矩阵 $ A$ 的一个特征值, x x x 为矩阵 A A A 关于 λ \lambda λ 的特征向量。
   A n × n A_{n \times n} An×n​ 的矩阵具有 n n n 个特征值, λ 1 ≤ λ 2 ≤ ⋯ ≤ λ n λ_1 ≤ λ_2 ≤ ⋯ ≤ λ_n λ1​≤λ2​≤⋯≤λn​ 其对应的n个特征向量为

上一篇:C#入门学习笔记(二):数据类型与表达式


下一篇:Python:小数据池、代码块以及代码块缓存机制