概率论与数理统计基础

@(概率论)


文章目录

前言

本文是概率论与数理统计的相关基础知识。正所谓万丈高楼平地起,所谓复杂皆出自简单,万事万物都是由最基础的原子构成。

上一章介绍了随机变量的分布函数、分布律和概率密度,他们都能完整的描述随机变量,但在某些实际或理论问题中,人们感兴趣于某些能描述随机变量某一种特征的常数:例如,一篮球队上场球员的身高是一个随机变量,人们常关心上场运动员的平均身高;一个城市一户家庭有用的汽车的数量是随机变量,在人们考察城市的交通情况时,人们关心户均拥有汽车的辆数;评论面熟的质量时,不进要考虑纤维的平均长度,又需要考虑纤维的长度与平均长度的偏离程度;本章将介绍几个重要的数学特征:数学期望、方差、相关系数和矩。

数学期望

定义

离散型的定义

定义:设离散型随机变量X的分布律为
P { X = x k } = p k , k = 1 , 2 , . . . P\{X=x_k\} = p_k, k = 1, 2, ... P{X=xk​}=pk​,k=1,2,...
若级数:
∑ k = 1 ∞ x k p k \sum_{k=1}^{\infty} x_kp_k k=1∑∞​xk​pk​

绝对收敛,则称离散数据的数学期望,记做
E ( X ) = ∑ k = 1 ∞ x k p k E(X) = \sum_{k=1}^{\infty} x_kp_k E(X)=k=1∑∞​xk​pk​

连续型的定义

设连续型随机变量X的概率密度为f(x),若积分
∫ a b x f ( x )   d x . \int_a^b xf(x)\,dx. ∫ab​xf(x)dx.

若绝对收敛,则称连续型随机变量的数学期望,记做
E ( X ) = ∫ a b x f ( x )   d x . E(X) = \int_a^b xf(x)\,dx. E(X)=∫ab​xf(x)dx.

数学期望简称期望,又称为均值。
数学期望E(X)完全由随机变量X的概率分布所确定。若X服从某一分布,也称E(x)是这一分布的数学期望。

例题

  1. 新生儿得分问题;
  2. 两个独立的电子装置问题;
  3. 候车问题;
  4. 验血的问题,多个人混合验血,还是分别验血;
  5. 泊松分布 or 均匀分布

定理

复合函数的数学期望:离散型 OR 连续型;
设Y是随机变量X的函数:Y = g(x)(g是连续函数)

定理的重要性在于:当我们求Y的数学期望的时候,不要求出Y的分布律或者概率密度函数,只需要利用X的分布律或概率密度函数即可。

推广

上述定理还可以推广到两个或者两个以上随机变量的情况;

例题

性质

  1. 设C是常数,则有E© = C;
  2. 设X是一个随机变量,C是常数,则 E(CX) = CE(X)
  3. 设X,Y是两个随机变量,则有 E(X+Y) = E(X) + E(Y),这个性质可以推广到任意有限个随机变量之和的情况;
  4. 设X,Y是相互独立的随机变量,则有 E(XY) = E(X) E(Y)

例题

  1. 民航接班车,下站问题;

方差

上一章节中,我们了解了数学期望的概念,其实说白了数学期望就是均值,但是仅仅知道了均值还是无法衡量数据好坏,还需要知道数据的分布情况,一个偏离程度的问题,这样我们就引入了方差的概念;

E { [ X − E ( X ) ] 2 } E\{[X - E(X)]^2\} E{[X−E(X)]2}

定义

设X是一个随机变量,若 $ E{[X - E(X)]^2} 存 在 , 则 称 存在,则称 存在,则称 E{[X - E(X)]^2} $为X的方差,记为D(X)或Var(X),即

D ( X ) = V a r ( X ) = E { [ X − E ( X ) ] 2 } D(X) = Var(X) = E\{[X - E(X)]^2\} D(X)=Var(X)=E{[X−E(X)]2}
D ( X ) , 记 为 σ ( X ) \sqrt {D(X)},记为\sigma (X) D(X) ​,记为σ(X),称为标准差或均方差;

离散型的方差公式

由定义可知,方差就是随机变量X的函数 g ( X ) = ( X − E ( X ) ) 2 g(X) = (X - E(X))^2 g(X)=(X−E(X))2的数学期望,于是对于离散型的随机变量,有
∑ k = 1 ∞ [ ( X − E ( X ) ) 2 ] p k \sum_{k=1}^{\infty} [ (X - E(X))^2]p_k k=1∑∞​[(X−E(X))2]pk​

连续型的方差公式

由定义可知,方差就是随机变量X的函数 g ( X ) = ( X − E ( X ) ) 2 g(X) = (X - E(X))^2 g(X)=(X−E(X))2的数学期望,
E ( X ) = ∫ − ∞ ∞ [ ( X − E ( X ) ) 2 ] f ( x )   d x . E(X) = \int_{-\infty}^{\infty} [ (X - E(X))^2]f(x)\,dx. E(X)=∫−∞∞​[(X−E(X))2]f(x)dx.

公式及其证明

公式如下:
D ( X ) = E ( X 2 ) − [ E ( X ) ] 2 D(X) = E(X^2) - [E(X)]^2 D(X)=E(X2)−[E(X)]2

定理

标准化变量

设随机变量X具有数学期望 $ E(X) = \mu $, 方差 $ D(X) = {\sigma}^2$,则 X ∗ = X − μ σ X^* = \dfrac{X - \mu}{\sigma} X∗=σX−μ​的数学期望为0,方差为1,则 X ∗ X^* X∗称为X的标准化变量; 证明过程参考概率论与数理统计方差的例题1;感觉这个和正态分布有很强的关联;

例题

标准化变量

求解出 标准化变量

(0-1)分布

设随机变量X具有(0-1)分布,其分布律为
P { X = 0 } = 1 − p , P { X = 1 } = p P\{X=0\} = 1 - p, P\{X=1\} = p P{X=0}=1−p,P{X=1}=p
E ( X ) = p E(X) = p E(X)=p
D ( X ) = p ( 1 − p ) D(X) = p(1-p) D(X)=p(1−p)

泊松分布

设随机变量 X ∼ π ( λ ) X \sim \pi(\lambda) X∼π(λ),其分布律为
P { X = k } = λ k d − λ k ! P\{X=k\} = \dfrac{\lambda ^kd^{-\lambda}}{k!} P{X=k}=k!λkd−λ​
E ( X ) = λ E(X) = \lambda E(X)=λ
D ( X ) = λ D(X) = \lambda D(X)=λ

均匀分布

设随机变量 X ∼ U ( a , b ) X \sim U(a, b) X∼U(a,b),其概率密度函数为
\begin{equation}
f(x) = \begin{cases}
\dfrac{1}{b - a}, & \mbox{ a < x < b}\
0, & \mbox{其他}
\end{cases}
\end{equation}
E ( X ) = a + b 2 E(X) = \dfrac{a+b}{2} E(X)=2a+b​
D ( X ) = ( b − a ) 2 12 D(X)=\dfrac{(b-a)^2}{12} D(X)=12(b−a)2​

指数分布

设随机变量X服从指数分布,其概率密度函数是
\begin{equation}
f(x) = \begin{cases}
\dfrac{1}{\theta}e^{- \dfrac{x}{\theta}}, & \mbox{ x > 0}\
0, & \mbox{x <= 0}
\end{cases}
\end{equation}
E ( X ) = θ E(X) = \theta E(X)=θ
D ( X ) = θ 2 D(X)=\theta ^2 D(X)=θ2

二项分布

设随机变量 X ∼ b ( n , p ) X \sim b(n, p) X∼b(n,p)
E ( X ) = n p E(X) = np E(X)=np
D ( X ) = n p ( 1 − p ) D(X) = np(1-p) D(X)=np(1−p)

正态分布(高斯分布)

设随机变量 X ∼ N ( μ , σ 2 ) X \sim N(\mu, \sigma ^2) X∼N(μ,σ2),先求标准正态分布变量
E ( X ) = μ E(X) = \mu E(X)=μ
D ( X ) = σ 2 D(X) = \sigma ^ 2 D(X)=σ2
这就是说,正态分布的概率密度中的两个参数分布式该分布的数学期望和均方差,因而正态分布完全可以由它的数学期望和方差所确定。

切比雪夫不等式

定理:设随机变量X具有数学期望 E ( X ) = μ E(X) = \mu E(X)=μ,方差 D ( X ) = σ 2 D(X) = \sigma ^ 2 D(X)=σ2,则对于任意整数 ϵ \epsilon ϵ,有
P { ∣ X − μ ∣ > = ϵ } < = σ 2 ϵ 2 P\{|X-\mu| >= \epsilon\} <= \dfrac{\sigma ^ 2}{\epsilon ^2} P{∣X−μ∣>=ϵ}<=ϵ2σ2​

感觉切比雪夫不等式更像是对于正态分布的一个分布的估计,嗯,就是这样。

性质

  1. 设C是常数,则 D ( C ) = 0 D(C) = 0 D(C)=0;
  2. 设X是随机变量,C是常数,则有
    D ( C + X ) = D ( X ) D(C + X) = D(X) D(C+X)=D(X)
    D ( C X ) = C 2 D ( X ) D(CX) = C^2D(X) D(CX)=C2D(X)
  3. 设X,Y是随机变量,则有
    D ( X + Y ) = D ( X ) + D ( Y ) + 2 E { ( X − E ( X ) ( Y − E ( Y ) ) ) } D(X + Y) = D(X) + D(Y) + 2E\{(X-E(X)(Y-E(Y)))\} D(X+Y)=D(X)+D(Y)+2E{(X−E(X)(Y−E(Y)))}
    特别地,当X、Y相互独立,则有
    D ( X + Y ) = D ( X ) + D ( Y ) D(X + Y) = D(X) + D(Y) D(X+Y)=D(X)+D(Y)
  4. 方差等于0的情况,就是取常数啊

协方差及相关系数

对于二维随机变量,除了讨论他们的数学期望和方差外,还需讨论描述X与Y之间相互关系的数学特征,本节讨论有关这方面的数字特征。在上面的证明中看到如果两个随机变量X和Y是相互独立的,则

E { [ X − E ( X ) ] [ Y − E ( Y ) ] } = 0 E\{[X-E(X)][Y-E(Y)]\} = 0 E{[X−E(X)][Y−E(Y)]}=0
这也意味着当 E { [ X − E ( X ) ] [ Y − E ( Y ) ] } ! = 0 E\{[X-E(X)][Y-E(Y)]\} != 0 E{[X−E(X)][Y−E(Y)]}!=0的时候,X和Y不相互独立,而是存在着一定的关系;

定义

量$E{[X-E(X)][Y-E(Y)]} $称为随机变量X与Y的协方差,记做Cov(X, Y),即
C o v ( X , Y ) = E { [ X − E ( X ) ] [ Y − E ( Y ) ] } Cov(X, Y) = E\{[X-E(X)][Y-E(Y)]\} Cov(X,Y)=E{[X−E(X)][Y−E(Y)]}
ρ x y = C o v ( x , y ) D ( X ) D ( Y ) \rho xy = \dfrac {Cov(x,y)}{\sqrt{D(X)} \sqrt{D(Y)}} ρxy=D(X) ​D(Y) ​Cov(x,y)​


矩、协方差矩阵

未完待续

番外篇

个人介绍:杜宝坤,隐私计算行业从业者,从0到1带领团队构建了京东的联邦学习解决方案9N-FL,同时主导了联邦学习框架与联邦开门红业务。
框架层面:实现了电商营销领域支持超大规模的工业化联邦学习解决方案,支持超大规模样本PSI隐私对齐、安全的树模型与神经网络模型等众多模型支持。
业务层面:实现了业务侧的开门红业务落地,开创了新的业务增长点,产生了显著的业务经济效益。
个人比较喜欢学习新东西,乐于钻研技术。基于从全链路思考与决策技术规划的考量,研究的领域比较多,从工程架构、大数据到机器学习算法与算法框架均有涉及。欢迎喜欢技术的同学和我交流,邮箱:baokun06@163.com

上一篇:模型训练及调参


下一篇:洛谷 P3232 [HNOI2013]游走