文章目录
初等概率论(一)
概率空间
概率空间是随机现象的数学模型,它由三个基本要素组成,通常写作 ( Ω , F , P ) (\Omega,\,\mathscr{F},\,P) (Ω,F,P) ,其中 Ω \Omega Ω 为样本空间, F \mathscr{F} F 为随机事件域, P P P 为概率。
样本空间
在概率论中的一个基本概念是随机试验,这种试验的结果不能预先确定。一个试验所有可能的基本结果的集合称为此试验的样本空间,记为 Ω \Omega Ω 。
事件是样本空间的一个子集,如果此试验的结果是这个子集的一个元素,则称这个事件发生了。 F \mathscr{F} F 是随机事件域,是 Ω \Omega Ω 中的子集类,具有下列基本性质:
- ∅ , Ω ∈ F \emptyset,\,\Omega\in \mathscr{F} ∅,Ω∈F ;
- 关于取补封闭:如果 A ∈ F A\in \mathscr{F} A∈F ,则 A ˉ ∈ F \bar{A}\in\mathscr{F} Aˉ∈F ;
- 关于可列并封闭:如果 A i , i ≥ 1 A_i,\,i\geq1 Ai,i≥1 是一列事件, A i ∈ F A_i\in\mathscr{F} Ai∈F ,则 ⋃ i = 1 ∞ A i ∈ F \bigcup\limits_{i=1}^\infty A_i\in\mathscr{F} i=1⋃∞Ai∈F 。
称 F \mathscr{F} F 是 Ω \Omega Ω 上的 σ \sigma σ-代数,称 ( Ω , F ) (\Omega,\,\mathscr{F}) (Ω,F) 为可测空间。
定义函数 P : F → [ 0 , 1 ] P:\mathscr{F}\to [0,\,1] P:F→[0,1] ,如果满足:
- 规范性: P ( ∅ ) = 0 P(\emptyset)=0 P(∅)=0 , P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1 ;
- 可列可加性: P ( ⋃ i = 1 ∞ A i ) = ∑ i = 1 ∞ P ( A i ) P\left(\bigcup\limits_{i=1}^\infty A_i\right)=\sum\limits_{i=1}^\infty P(A_i) P(i=1⋃∞Ai)=i=1∑∞P(Ai) ,
则称 P P P 是 ( Ω , F ) (\Omega,\,\mathscr{F}) (Ω,F) 上的概率测度。
条件概率与独立性
假设
(
Ω
,
F
,
P
)
(\Omega,\,\mathscr{F},\,P)
(Ω,F,P) 是一个概率空间,
A
,
B
∈
F
A,\,B\in\mathscr{F}
A,B∈F 。假设
P
(
B
)
>
0
P(B)>0
P(B)>0 ,则在给定
B
B
B 发生的条件下,
A
A
A 发生的条件概率为:
P
(
A
∣
B
)
=
P
(
A
B
)
P
(
B
)
.
P(A|B)=\frac{P(AB)}{P(B)} \ .
P(A∣B)=P(B)P(AB) .
给定事件
B
B
B ,函数
P
(
⋅
∣
B
)
:
F
→
[
0
,
1
]
P(\cdot|B):\mathscr{F}\to[0,1]
P(⋅∣B):F→[0,1] 是一个概率,
(
Ω
,
F
,
P
(
⋅
∣
B
)
)
\left(\Omega,\,\mathscr{F},\,P(\cdot|B)\right)
(Ω,F,P(⋅∣B)) 也是一个概率空间。
条件概率是计算事件概率的一个强有力工具,在这里我们总结以下常用的公式:
- 乘法公式:条件概率的定义式可以改写为
P ( A B ) = P ( A ∣ B ) P ( B ) . P(AB)=P(A|B)P(B) \ . P(AB)=P(A∣B)P(B) .
- 链式法则:将乘法公式继续推广到多个事件,可以写为
P ( A 1 A 2 ⋯ A m ) = P ( A 1 ) P ( A 2 ∣ A 1 ) P ( A 3 ∣ A 2 A 1 ) ⋯ P ( A m ∣ A m − 1 A m − 2 ⋯ A 1 ) . P(A_1A_2\cdots A_m)=P(A_1)P(A_2|A_1)P(A_3|A_2A_1)\cdots P(A_m|A_{m-1}A_{m-2}\cdots A_1) \ . P(A1A2⋯Am)=P(A1)P(A2∣A1)P(A3∣A2A1)⋯P(Am∣Am−1Am−2⋯A1) .
- 全概率公式:假设 B 1 , B 2 , ⋯ , B N ( N ≤ ∞ ) B_1,B_2,\cdots,B_N\ (N\leq\infty) B1,B2,⋯,BN (N≤∞) 是一列互不相容事件,并且 Ω = ∑ i = 1 n B i \Omega=\sum\limits_{i=1}^n B_i Ω=i=1∑nBi ,则对任意事件 A A A 有
P ( A ) = ∑ i = 1 N P ( A ∣ B i ) P ( B i ) . P(A)=\sum_{i=1}^NP(A|B_i)P(B_i) \ . P(A)=i=1∑NP(A∣Bi)P(Bi) .
- 特别地,任意给定 B B B ,如果 0 < P ( B ) < 1 0<P(B)<1 0<P(B)<1 ,则有
P ( A ) = P ( A ∣ B ) P ( B ) + P ( A ∣ B ˉ ) P ( B ˉ ) . P(A)=P(A|B)P(B)+P(A|\bar{B})P(\bar{B}) \ . P(A)=P(A∣B)P(B)+P(A∣Bˉ)P(Bˉ) .
- 贝叶斯公式:假设 B 1 , B 2 , ⋯ , B N ( N ≤ ∞ ) B_1,B_2,\cdots,B_N\ (N\leq\infty) B1,B2,⋯,BN (N≤∞) 是一列互不相容事件,并且 Ω = ∑ i = 1 n B i \Omega=\sum\limits_{i=1}^n B_i Ω=i=1∑nBi ,则对任意事件 A A A 有
P ( B i ∣ A ) = P ( B i ) P ( A ∣ B i ) ∑ i = 1 N P ( A ∣ B i ) P ( B i ) . P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum\limits_{i=1}^NP(A|B_i)P(B_i)} \ . P(Bi∣A)=i=1∑NP(A∣Bi)P(Bi)P(Bi)P(A∣Bi) .
注意到,条件概率 P ( A ∣ B ) P(A|B) P(A∣B) 可能比 P ( A ) P(A) P(A) 大,也可能比 P ( A ) P(A) P(A) 小。当 P ( A ∣ B ) = P ( A ) P(A|B)=P(A) P(A∣B)=P(A) 时,我们认为事件 A A A 和事件 B B B 相互独立。一般地,我们认为两个事件相互独立,即事件 B B B 的发生对事件 A A A 发生的概率没有影响。
定义:设 A , B A,\,B A,B 为两随机事件,如果 P ( A B ) = P ( A ) P ( B ) P(AB)=P(A)P(B) P(AB)=P(A)P(B) ,则称 A , B A,\,B A,B 相互独立。
若
P
(
A
)
≠
0
,
P
(
B
)
≠
0
P(A)\neq0\ , \ P(B)\neq0
P(A)=0 , P(B)=0 ,则有
P
(
A
B
)
=
P
(
A
)
P
(
B
)
⟺
P
(
A
∣
B
)
=
P
(
A
)
⟺
P
(
B
∣
A
)
=
P
(
B
)
.
P(AB)=P(A)P(B) \iff P(A|B)=P(A) \iff P(B|A)=P(B) \ .
P(AB)=P(A)P(B)⟺P(A∣B)=P(A)⟺P(B∣A)=P(B) .
独立性也可以推广到多个事件。定义
m
m
m 个事件相互独立需要满足下列方程:
{
P
(
A
i
A
j
)
=
P
(
A
i
)
P
(
A
j
)
,
i
<
j
,
P
(
A
i
A
j
A
k
)
=
P
(
A
i
)
P
(
A
j
)
P
(
A
k
)
,
i
<
j
<
k
,
⋯
⋯
⋯
⋯
P
(
A
i
1
A
i
2
⋯
A
i
m
−
1
)
=
P
(
A
i
1
)
P
(
A
i
1
)
⋯
P
(
A
i
m
−
1
)
,
i
1
<
i
2
<
⋯
<
i
m
−
1
,
P
(
A
1
A
2
⋯
A
m
)
=
P
(
A
1
)
P
(
A
2
)
⋯
P
(
A
m
)
,
\left\{ \begin{array}{l} P(A_iA_j)=P(A_i)P(A_j) \ , \ \ \ \ i<j\ , \\ P(A_iA_jA_k)=P(A_i)P(A_j)P(A_k) \ , \ \ \ \ i<j<k\ , \\ \cdots\cdots\ \ \cdots\cdots \\ P(A_{i_1}A_{i_2}\cdots A_{i_{m-1}})=P(A_{i_1})P(A_{i_1})\cdots P(A_{i_{m-1}}) \ , \ \ \ \ i_1<i_2<\cdots<i_{m-1}\ , \\ P(A_1A_2\cdots A_m)=P(A_1)P(A_2)\cdots P(A_m) \ , \end{array} \right.
⎩⎪⎪⎪⎪⎨⎪⎪⎪⎪⎧P(AiAj)=P(Ai)P(Aj) , i<j ,P(AiAjAk)=P(Ai)P(Aj)P(Ak) , i<j<k ,⋯⋯ ⋯⋯P(Ai1Ai2⋯Aim−1)=P(Ai1)P(Ai1)⋯P(Aim−1) , i1<i2<⋯<im−1 ,P(A1A2⋯Am)=P(A1)P(A2)⋯P(Am) ,
此时称
A
1
,
A
2
,
⋯
,
A
m
A_1,A_2,\cdots,A_m
A1,A2,⋯,Am 相互独立。
进一步将独立性推广到事件域。假设 ( Ω , F , P ) (\Omega,\,\mathscr{F},\,P) (Ω,F,P) 是一个概率空间, A 1 , A 2 ⊆ F \mathcal{A}_1,\,\mathcal{A}_2\subseteq\mathscr{F} A1,A2⊆F 是两个事件域,如果任意 A 1 ∈ A 1 A_1\in\mathcal{A}_1 A1∈A1 和 A 2 ∈ A 2 A_2\in\mathcal{A}_2 A2∈A2 都有 A 1 A_1 A1 和 A 2 A_2 A2 相互独立,则称 A 1 \mathcal{A_1} A1 和 A 2 \mathcal{A}_2 A2 是两个相互独立的事件域。
随机变量及其分布
随机变量及分布函数的定义
一个随机变量 X X X 是一个函数,它给样本空间 Ω \Omega Ω 中的每一个结果都指定了一个实数值与之对应。
假设
(
Ω
,
F
,
P
)
(\Omega,\,\mathscr{F},\,P)
(Ω,F,P) 是一个概率空间,
X
:
Ω
→
R
X:\Omega\to\mathbb{R}
X:Ω→R 是一个映射。如果对任意事件
B
∈
B
B\in\mathcal{B}
B∈B ,其中
B
\mathcal{B}
B 为
R
\mathbb{R}
R 上所有左开右闭有限区间构成的集合,满足可测性条件:
X
−
1
(
B
)
=
{
ω
∈
Ω
:
X
(
ω
)
∈
B
}
∈
F
,
∀
B
∈
B
,
X^{-1}(B)=\{\omega\in\Omega:X(\omega)\in B\}\in\mathscr{F} \ , \ \ \ \ \forall B \in \mathcal{B} \ ,
X−1(B)={ω∈Ω:X(ω)∈B}∈F , ∀B∈B ,
则称
X
X
X 为实值随机变量。
定义
X
X
X 在概率
P
P
P 下的分布函数
F
X
(
x
)
F_X(x)
FX(x) 为
F
X
(
x
)
=
P
(
ω
:
X
≤
x
)
,
x
∈
R
.
F_X(x)=P(\omega:X\leq x) \ , \ \ \ \ x\in\mathbb{R} \ .
FX(x)=P(ω:X≤x) , x∈R .
离散型随机变量
离散型随机变量只取有限个或者可列个值,一般可表示为概率分布列:
X
∼
(
x
1
x
2
⋯
x
N
p
1
p
2
⋯
p
N
)
,
∑
i
=
1
N
p
i
=
1
,
N
≤
∞
X\sim\left( \begin{array}{cccc} x_1 & x_2 & \cdots & x_N \\ p_1 & p_2 & \cdots & p_N \end{array} \right) \ , \ \ \ \ \sum_{i=1}^Np_i=1 \ , \ \ \ \ N\leq\infty
X∼(x1p1x2p2⋯⋯xNpN) , i=1∑Npi=1 , N≤∞
其分布函数为阶梯型函数,可以写成:
F
(
x
)
=
∑
i
:
x
i
≤
x
p
i
.
F(x)=\sum_{i:\,x_i\leq x}p_i \ .
F(x)=i:xi≤x∑pi .
连续型随机变量
连续型随机变量取值为
R
\mathbb{R}
R 上一个区间或多个区间,并存在一个密度函数
p
(
x
)
p(x)
p(x) ,常记为
X
∼
p
(
x
)
X\sim p(x)
X∼p(x) ,满足:
F
(
x
)
=
∫
−
∞
x
p
(
u
)
d
u
,
x
∈
R
,
F(x)=\int_{-\infty}^x p(u){\rm d}u \ , \ \ \ \ x\in\mathbb{R} \ ,
F(x)=∫−∞xp(u)du , x∈R ,
该分布函数为绝对连续函数,其导数为
p
(
x
)
p(x)
p(x) 。
二元随机向量及其分布
随机向量及联合分布的定义
假设
(
Ω
,
F
,
P
)
(\Omega,\,\mathscr{F},\,P)
(Ω,F,P) 是一个概率空间,
(
X
,
Y
)
:
Ω
→
R
2
(X,\,Y):\Omega\to\mathbb{R}^2
(X,Y):Ω→R2 是一个二元函数。如果对任意
x
,
y
∈
R
x,\,y\in\mathbb{R}
x,y∈R ,
{
ω
∈
Ω
:
X
(
ω
)
≤
x
,
Y
(
ω
)
≤
y
}
∈
F
,
\{\omega\in\Omega:X(\omega)\leq x,\,Y(\omega)\leq y\}\in\mathscr{F} \ ,
{ω∈Ω:X(ω)≤x,Y(ω)≤y}∈F ,
则称
(
X
,
Y
)
(X,\,Y)
(X,Y) 为二元随机向量。
给定随机向量
(
X
,
Y
)
(X,\,Y)
(X,Y) ,定义二元联合分布函数为:
F
X
,
Y
(
x
,
y
)
=
P
(
ω
:
X
≤
x
,
Y
≤
y
)
.
F_{X,\,Y}(x,\,y)=P(\omega:X\leq x,\,Y\leq y) \ .
FX,Y(x,y)=P(ω:X≤x,Y≤y) .
定义
(
X
,
Y
)
(X,\,Y)
(X,Y) 的边际分布函数为:
F
X
(
x
)
=
F
X
,
Y
(
x
,
∞
)
,
F
Y
(
y
)
=
F
X
,
Y
(
∞
,
y
)
.
F_X(x)=F_{X,\,Y}(x,\,\infty) \ , \ \ \ \ F_Y(y)=F_{X,\,Y}(\infty,\,y)\ .
FX(x)=FX,Y(x,∞) , FY(y)=FX,Y(∞,y) .
一般地,联合分布函数
F
X
,
Y
F_{X,\,Y}
FX,Y 唯一确定边际分布函数,但边际分布函数不能确定联合分布函数。
离散型随机向量
一般地,离散型随机向量
(
X
,
Y
)
(X,\,Y)
(X,Y) 的二维联合分布列为:
P
(
X
=
x
i
,
Y
=
y
j
)
=
p
i
j
,
i
,
j
=
1
,
2
,
⋯
.
P(X=x_i,\,Y=y_j)=p_{ij} \ , \ \ \ \ i,\,j=1,2,\cdots \ .
P(X=xi,Y=yj)=pij , i,j=1,2,⋯ .
类似于一元离散型随机变量,满足
∑
i
∑
j
p
i
j
=
1
.
\sum_i\sum_jp_{ij}=1 \ .
i∑j∑pij=1 .
边际分布列可以写为:
P
(
X
=
x
i
)
=
∑
j
=
1
∞
P
(
X
=
x
i
,
Y
=
y
j
)
=
∑
j
=
1
∞
p
i
j
≜
p
i
⋅
,
P(X=x_i)=\sum_{j=1}^\infty P(X=x_i,\,Y=y_j) =\sum_{j=1}^\infty p_{ij}\triangleq p_{i\cdot} \ ,
P(X=xi)=j=1∑∞P(X=xi,Y=yj)=j=1∑∞pij≜pi⋅ ,
P ( Y = y i ) = ∑ i = 1 ∞ P ( X = x i , Y = y j ) = ∑ i = 1 ∞ p i j ≜ p ⋅ j . P(Y=y_i)=\sum_{i=1}^\infty P(X=x_i,\,Y=y_j)=\sum_{i=1}^\infty p_{ij}\triangleq p_{\cdot j} \ . P(Y=yi)=i=1∑∞P(X=xi,Y=yj)=i=1∑∞pij≜p⋅j .
条件分布列可以写为:
P
Y
∣
X
(
y
j
∣
x
i
)
=
P
(
X
=
x
i
,
Y
=
y
i
)
P
(
X
=
x
i
)
=
p
i
j
p
i
⋅
,
P_{Y|X}(y_j|x_i)=\frac{P(X=x_i,\,Y=y_i)}{P(X=x_i)}=\frac{p_{ij}}{p_{i\cdot}} \ ,
PY∣X(yj∣xi)=P(X=xi)P(X=xi,Y=yi)=pi⋅pij ,
P X ∣ Y ( x i ∣ y j ) = P ( X = x i , Y = y i ) P ( Y = y i ) = p i j p ⋅ j . P_{X|Y}(x_i|y_j)=\frac{P(X=x_i,\,Y=y_i)}{P(Y=y_i)}=\frac{p_{ij}}{p_{\cdot j}} \ . PX∣Y(xi∣yj)=P(Y=yi)P(X=xi,Y=yi)=p⋅jpij .
X
X
X 和
Y
Y
Y 相互独立当且仅当
p
i
j
=
p
i
⋅
p
⋅
j
,
i
,
j
=
1
,
2
,
⋯
.
p_{ij}=p_{i\cdot}p_{\cdot j} \ , \ \ \ \ i,\,j=1,2,\cdots \ .
pij=pi⋅p⋅j , i,j=1,2,⋯ .
连续型随机向量
假设连续型随机向量
(
X
,
Y
)
(X,\,Y)
(X,Y) 的联合密度函数为
p
X
,
Y
(
x
,
y
)
p_{X,\,Y}(x,\,y)
pX,Y(x,y) ,即
F
X
,
Y
(
x
,
y
)
=
∫
−
∞
x
∫
−
∞
y
p
X
,
Y
(
u
,
v
)
d
u
d
v
,
x
,
y
∈
R
.
F_{X,\,Y}(x,\,y)=\int_{-\infty}^x\int_{-\infty}^y p_{X,\,Y}(u,\,v){\rm d}u{\rm d}v \ , \ \ \ \ x,\,y\in\mathbb{R} \ .
FX,Y(x,y)=∫−∞x∫−∞ypX,Y(u,v)dudv , x,y∈R .
边际密度函数可以写为:
p
X
(
x
)
=
∫
−
∞
∞
p
X
,
Y
(
x
,
y
)
d
y
,
x
∈
R
,
p_X(x)=\int_{-\infty}^\infty p_{X,\,Y}(x,\,y){\rm d}y \ , \ \ \ \ x\in\mathbb{R} \ ,
pX(x)=∫−∞∞pX,Y(x,y)dy , x∈R ,
p Y ( y ) = ∫ − ∞ ∞ p X , Y ( x , y ) d x , y ∈ R . p_Y(y)=\int_{-\infty}^\infty p_{X,\,Y}(x,\,y){\rm d}x \ , \ \ \ \ y\in\mathbb{R} \ . pY(y)=∫−∞∞pX,Y(x,y)dx , y∈R .
条件密度函数可以写为:
p
Y
∣
X
(
y
∣
x
)
=
p
X
,
Y
(
x
,
y
)
p
X
(
x
)
,
y
∈
R
,
p_{Y|X}(y|x)=\frac{p_{X,\,Y}(x,\,y)}{p_X(x)} \ , \ \ \ \ y\in\mathbb{R} \ ,
pY∣X(y∣x)=pX(x)pX,Y(x,y) , y∈R ,
p X ∣ Y ( x ∣ y ) = p X , Y ( x , y ) p Y ( y ) , x ∈ R . p_{X|Y}(x|y)=\frac{p_{X,\,Y}(x,\,y)}{p_Y(y)} \ , \ \ \ \ x\in\mathbb{R} \ . pX∣Y(x∣y)=pY(y)pX,Y(x,y) , x∈R .
X
X
X 和
Y
Y
Y 相互独立当且仅当
p
X
,
Y
(
x
,
y
)
=
p
X
(
x
)
p
Y
(
y
)
,
x
,
y
∈
R
.
p_{X,\,Y}(x,\,y)=p_X(x)p_{Y}(y) \ , \ \ \ \ x,\,y\in\mathbb{R} \ .
pX,Y(x,y)=pX(x)pY(y) , x,y∈R .
数字特征
分布函数可以全面地描述一个随机现象,但在实际工作中,我们很难掌握随机变量的分布函数,因此需要引入某些数字特征以反映随机变量的主要性质。设随机变量 X X X 的分布函数为 F ( x ) F(x) F(x) ,假设其具有概率密度 p ( x ) p(x) p(x) 或概率分布列 p i p_{i} pi 。
数学期望
对于离散型随机变量,如果
∑
n
=
1
∞
∣
x
n
∣
p
n
<
∞
\displaystyle\sum_{n=1}^\infty|x_n|p_n<\infty
n=1∑∞∣xn∣pn<∞ ,则称
X
X
X 的数学期望存在,记为
E
X
=
∑
n
=
1
∞
x
n
p
n
.
{\rm E}X=\sum_{n=1}^\infty x_np_n \ .
EX=n=1∑∞xnpn .
对于连续型随机变量,如果
∫
−
∞
∞
∣
x
∣
p
(
x
)
d
x
<
∞
\displaystyle\int_{-\infty}^\infty|x|p(x){\rm d}x<\infty
∫−∞∞∣x∣p(x)dx<∞ ,则称
X
X
X 的数学期望存在,记为
E
X
=
∫
−
∞
∞
x
p
(
x
)
d
x
.
{\rm E}X=\int_{-\infty}^\infty xp(x){\rm d}x \ .
EX=∫−∞∞xp(x)dx .
我们也可以用分布函数统一以上两种定义。对于任意随机变量
X
X
X ,如果
∫
−
∞
∞
∣
x
∣
d
F
(
x
)
<
∞
\displaystyle\int_{-\infty}^\infty|x|{\rm d}F(x)<\infty
∫−∞∞∣x∣dF(x)<∞ ,其中积分为 Riemann-Stieltjes 积分,则称
X
X
X 的数学期望存在,记为
E
X
=
∫
−
∞
∞
x
d
F
(
x
)
.
{\rm E}X=\int_{-\infty}^\infty x{\rm d}F(x) \ .
EX=∫−∞∞xdF(x) .
对于随机变量函数
f
(
X
)
f(X)
f(X) ,其中
f
:
R
→
R
f:\mathbb{R}\to\mathbb{R}
f:R→R 是可测函数,则有
E
f
(
X
)
=
∫
−
∞
∞
f
(
x
)
d
F
(
x
)
.
{\rm E}f(X)=\int_{-\infty}^\infty f(x){\rm d}F(x) \ .
Ef(X)=∫−∞∞f(x)dF(x) .
方差
方差反映了随机变量取值偏离平均值的程度。设
E
X
2
<
∞
{\rm E}X^2<\infty
EX2<∞ ,定义
X
X
X 的方差:
V
a
r
(
X
)
=
E
(
X
−
E
X
)
2
=
E
X
2
−
(
E
X
)
2
.
{\rm Var}(X)={\rm E}(X-{\rm E}X)^2={\rm E}X^2-({\rm E}X)^2 \ .
Var(X)=E(X−EX)2=EX2−(EX)2 .
关于方差为
0
0
0 的情况:
V
a
r
(
X
)
=
0
{\rm Var}(X)=0
Var(X)=0 当且仅当
X
=
c
a
.
s
.
X=c \ \ {\rm a.s.}
X=c a.s. ,其中
c
=
E
X
c={\rm E}X
c=EX 为常数。
这里的 X = c a . s . X=c \ \ {\rm a.s.} X=c a.s. 表示 X X X 几乎处处等于 c c c ,即 P ( X = c ) = 1 P(X=c)=1 P(X=c)=1 。
协方差
设 ( X , Y ) (X,\,Y) (X,Y) 为二元随机向量,且二阶矩存在 E X 2 < ∞ {\rm E}X^2<\infty EX2<∞ , E Y 2 < ∞ {\rm E}Y^2<\infty EY2<∞ 。
定义协方差为:
C
o
v
(
X
,
Y
)
=
E
(
X
−
E
X
)
(
Y
−
E
Y
)
.
{\rm Cov}(X,\,Y)={\rm E}(X-{\rm E}X)(Y-{\rm E}Y) \ .
Cov(X,Y)=E(X−EX)(Y−EY) .
定义协方差矩阵为:
Σ
=
(
V
a
r
(
X
)
C
o
v
(
X
,
Y
)
C
o
v
(
X
,
Y
)
V
a
r
(
Y
)
)
.
\boldsymbol\Sigma=\left( \begin{array}{cc} {\rm Var}(X) & {\rm Cov}(X,\,Y) \\ {\rm Cov}(X,\,Y) & {\rm Var}(Y) \end{array} \right) \ .
Σ=(Var(X)Cov(X,Y)Cov(X,Y)Var(Y)) .
定义相关系数为:
ρ
X
,
Y
=
C
o
v
(
X
,
Y
)
V
a
r
(
X
)
⋅
V
a
r
(
Y
)
∈
[
−
1
,
1
]
.
\rho_{X,\,Y}=\frac{{\rm Cov}(X,\,Y) }{\displaystyle\sqrt{{\rm Var}(X)\cdot{\rm Var}(Y)}} \in[-1,\,1] \ .
ρX,Y=Var(X)⋅Var(Y)
Cov(X,Y)∈[−1,1] .
条件期望
有了条件分布,可以类似地定义条件期望,依然需要给定绝对收敛的条件:
∫
−
∞
∞
∣
y
∣
d
F
Y
∣
X
(
y
∣
x
)
<
∞
,
\int_{-\infty}^\infty |y|{\rm d}F_{Y|X}(y|x)<\infty \ ,
∫−∞∞∣y∣dFY∣X(y∣x)<∞ ,
定义在给定
X
=
x
X=x
X=x 的条件下,
Y
Y
Y 的条件期望是
E
(
Y
∣
X
=
x
)
=
∫
−
∞
∞
y
d
F
Y
∣
X
(
y
∣
x
)
.
{\rm E}(Y|X=x)=\int_{-\infty}^\infty y{\rm d}F_{Y|X}(y|x)\ .
E(Y∣X=x)=∫−∞∞ydFY∣X(y∣x) .
如果对于每一个
x
∈
R
x\in\mathbb{R}
x∈R ,
E
(
Y
∣
X
=
x
)
{\rm E}(Y|X=x)
E(Y∣X=x) 存在且有限,定义
g
(
x
)
=
E
(
Y
∣
X
=
x
)
g(x)={\rm E}(Y|X=x)
g(x)=E(Y∣X=x) ,因此有
g
(
X
)
=
E
(
Y
∣
X
)
g(X)={\rm E}(Y|X)
g(X)=E(Y∣X) 是随机变量
X
X
X 的函数,因此
g
(
X
)
g(X)
g(X) 是随机变量。有全期望公式:
E
[
E
(
Y
∣
X
)
]
=
E
(
g
(
X
)
)
=
E
Y
.
{\rm E}[{\rm E}(Y|X)]={\rm E}(g(X))={\rm E}Y \ .
E[E(Y∣X)]=E(g(X))=EY .
条件期望还有一些性质:
- 如果 X ≤ Y X\leq Y X≤Y ,则 E ( X ∣ Z ) ≤ E ( Y ∣ Z ) {\rm E}(X|Z)\leq{\rm E}(Y|Z) E(X∣Z)≤E(Y∣Z) ;
- 如果 Y = h ( X ) Y=h(X) Y=h(X) 是 X X X 的可测函数,则 E ( Y ∣ X ) = Y {\rm E}(Y|X)=Y E(Y∣X)=Y ;
- 如果 X X X 与 Y Y Y 相互独立,则 E ( Y ∣ X ) = E Y {\rm E}(Y|X)={\rm E}Y E(Y∣X)=EY ,反之不成立。
条件期望和全期望公式在随机过程以及时间序列的研究中均发挥了关键的作用。