[概统]本科二年级 概率论与数理统计 第四讲 连续型随机变量

[概统]本科二年级 概率论与数理统计 第四讲 连续型随机变量

连续型随机变量的基本概念

定义4.1 在 R \mathbb{R} R上定义概率 P P P, P : A → [ 0 , 1 ] P:\mathcal{A} \to [0,1] P:A→[0,1],

  1. P ( ϕ ) = 0 P(\phi)=0 P(ϕ)=0,即不可能事件概率为0
  2. P ( Ω ) = 1 P(\Omega)=1 P(Ω)=1,即必然事件概率为1
  3. 对一列互斥的事件 { A n } n ≥ 1 ⊂ P \{A_n\}_{n \ge 1} \subset \mathcal{P} {An​}n≥1​⊂P, P ( ⋃ n ≥ 1 A n ) = ∑ n ≥ 1 P ( A n ) P(\bigcup_{n \ge 1}A_n) = \sum_{n \ge 1}P(A_n) P(n≥1⋃​An​)=n≥1∑​P(An​)即互斥事件和的概率等于互斥事件概率之和

其中 A \mathcal{A} A是 R \mathbb{R} R的某些子集组成的集合,按几何概型的启发,我们假设 A \mathcal{A} A中的元素都可以用某些区间的交或者并表示。这样我们就得到了概率空间 ( R , A , P ) (\mathbb{R},\mathcal{A},P) (R,A,P),称这样的概率空间为连续型概率空间。定义 X : ( R , A , P ) → R X:(\mathbb{R},\mathcal{A},P) \to \mathbb{R} X:(R,A,P)→R,则 X X X为连续型随机变量。

例4.1 我们可以把事件用随机变量表示,考虑事件 A ∈ A A \in \mathcal{A} A∈A,定义
1 A ( x ) = { 1 , x ∈ A 0 , x ∉ A 1_A(x) = \begin{cases} 1 , x \in A \\ 0, x \notin A \end{cases} 1A​(x)={1,x∈A0,x∈/​A​

显然 1 A 1_A 1A​是一个连续型随机变量,我们称这样的随机变量为事件的指示变量(indicator function)。

定义4.2 分布、累积分布函数、生存函数
称映射 μ : A → [ 0 , 1 ] \mu:\mathcal{A} \to [0,1] μ:A→[0,1]是 X X X的分布,如果 ∀ A ∈ A \forall A \in \mathcal{A} ∀A∈A
μ ( A ) = P ( { w ∈ Ω : X ( w ) ∈ A } ) = P ( X ∈ A ) \mu(A) = P(\{w \in \Omega:X(w) \in A\})=P(X \in A) μ(A)=P({w∈Ω:X(w)∈A})=P(X∈A)

如果取 A = ( − ∞ , x ] A = (-\infty,x] A=(−∞,x],则记
F X ( x ) = μ ( ( − ∞ , x ] ) = P ( X ≤ x ) F_X(x) = \mu((-\infty,x]) = P(X \le x) FX​(x)=μ((−∞,x])=P(X≤x)

称 F X F_X FX​为 X X X的累积分布函数(cumulative distribution function, cdf);如果取 A = ( x , ∞ ) A = (x,\infty) A=(x,∞),则记 S X ( x ) = μ ( ( x , ∞ ) ) = P ( X > x ) S_X(x) = \mu((x,\infty))=P(X>x) SX​(x)=μ((x,∞))=P(X>x)

称 S X S_X SX​为 X X X的生存函数,显然
F X ( x ) + S X ( x ) = 1 , ∀ x ∈ R F_X(x)+S_X(x)=1,\forall x \in \mathbb{R} FX​(x)+SX​(x)=1,∀x∈R

定理4.1 累积分布函数的性质

  1. 右连续
  2. F ( − ∞ ) = 0 , F ( + ∞ ) = 1 F(-\infty)=0,F(+\infty)=1 F(−∞)=0,F(+∞)=1
  3. 非减

证明
第一条,右连续,即 lim ⁡ x → a + F X ( x ) = F ( a ) , ∀ x ∈ R \lim_{x \to a^+}F_X(x)=F(a),\forall x \in \mathbb{R} limx→a+​FX​(x)=F(a),∀x∈R,要证明这个结论,我们考虑任意一个单调递增且收敛到 a a a的序列 { x n } \{x_n\} {xn​},则
{ X ≤ x 1 } ⊃ { X ≤ x 2 } ⋯ ⊃ { X ≤ x n } ⊃ ⋯ \{X \le x_1\} \supset \{X \le x_2\} \cdots \supset \{X \le x_n\} \supset \cdots {X≤x1​}⊃{X≤x2​}⋯⊃{X≤xn​}⊃⋯

所以
⋂ n = 1 ∞ { X ≤ x n } = { X ≤ lim ⁡ n → ∞ x n } = { X ≤ a } \bigcap_{n=1}^{\infty}\{X \le x_n\} = \{X \le \lim_{n \to \infty}x_n\}=\{X \le a\} n=1⋂∞​{X≤xn​}={X≤n→∞lim​xn​}={X≤a}

根据概率的下连续性(见下面的评注),
lim ⁡ n → ∞ P ( X n ≤ x n ) = P ( ⋂ n = 1 ∞ { X ≤ x n } ) = P ( X ≤ a ) = F X ( a ) \lim_{n \to \infty}P(X_n \le x_n)=P(\bigcap_{n=1}^{\infty}\{X \le x_n\})=P(X \le a)=F_X(a) n→∞lim​P(Xn​≤xn​)=P(n=1⋂∞​{X≤xn​})=P(X≤a)=FX​(a)

这就说明了累积分布函数的右连续性。

第二条, F ( − ∞ ) = lim ⁡ x → − ∞ F ( x ) = 0 F(-\infty)=\lim_{x \to -\infty}F(x)=0 F(−∞)=limx→−∞​F(x)=0,要证明这个极限,我们选择任意一个递减且发散到 − ∞ -\infty −∞的序列 { x n } \{x_n\} {xn​},则
{ X ≤ x 1 } ⊃ { X ≤ x 2 } ⋯ ⊃ { X ≤ x n } ⊃ ⋯ \{X \le x_1\} \supset \{X \le x_2\} \cdots \supset \{X \le x_n\} \supset \cdots {X≤x1​}⊃{X≤x2​}⋯⊃{X≤xn​}⊃⋯

并且
⋂ n = 1 ∞ { X ≤ x n } = { X ≤ lim ⁡ n → ∞ x n } = ϕ \bigcap_{n=1}^{\infty}\{X \le x_n\} = \{X \le \lim_{n \to \infty}x_n\}=\phi n=1⋂∞​{X≤xn​}={X≤n→∞lim​xn​}=ϕ

根据第一条性质,
F ( − ∞ ) = P ( ⋂ n = 1 ∞ { X ≤ x n } ) = P ( ϕ ) = 0 F(-\infty)=P(\bigcap_{n=1}^{\infty}\{X \le x_n\})=P(\phi)=0 F(−∞)=P(n=1⋂∞​{X≤xn​})=P(ϕ)=0

类似地, F ( + ∞ ) = lim ⁡ x → + ∞ F X ( x ) = 1 F(+\infty) = \lim_{x \to + \infty}F_X(x)=1 F(+∞)=limx→+∞​FX​(x)=1,我们选择一个递增且分散到 + ∞ +\infty +∞的序列 { x n } \{x_n\} {xn​},则
{ X ≤ x 1 } ⊂ { X ≤ x 2 } ⋯ ⊂ { X ≤ x n } ⊂ ⋯ \{X \le x_1\} \subset \{X \le x_2\} \cdots \subset \{X \le x_n\} \subset \cdots {X≤x1​}⊂{X≤x2​}⋯⊂{X≤xn​}⊂⋯

并且
⋃ n = 1 ∞ { X ≤ x n } = { X ≤ lim ⁡ n → ∞ x n } = Ω \bigcup_{n=1}^{\infty}\{X \le x_n\} = \{X \le \lim_{n \to \infty}x_n\}=\Omega n=1⋃∞​{X≤xn​}={X≤n→∞lim​xn​}=Ω

根据概率的上连续性(见下面的评注),
F ( + ∞ ) = P ( ⋃ n = 1 ∞ { X ≤ x n } ) = P ( Ω ) = 1 F(+\infty) = P(\bigcup_{n=1}^{\infty}\{X \le x_n\} )=P(\Omega)=1 F(+∞)=P(n=1⋃∞​{X≤xn​})=P(Ω)=1

第三条,考虑 x ≤ y x\le y x≤y, { X ≤ x } ⊂ { X ≤ y } \{X \le x\} \subset \{X \le y\} {X≤x}⊂{X≤y},所以 P ( X ≤ x ) ≤ P ( X ≤ y ) P(X \le x) \le P(X \le y) P(X≤x)≤P(X≤y),于是 F X ( x ) ≤ F Y ( y ) F_X(x) \le F_Y(y) FX​(x)≤FY​(y)。

评注
关于概率有两个很重要的性质:
上连续 考虑 A n ∈ A , n = 1 , 2 , ⋯ A_n \in \mathcal{A},n=1,2,\cdots An​∈A,n=1,2,⋯, A n ⊂ A n + 1 A_n \subset A_{n+1} An​⊂An+1​,如果 P ( ⋃ n = 1 ∞ A n ) = lim ⁡ n P ( A n ) P(\bigcup_{n=1}^{\infty}A_n)=\lim_n P(A_n) P(⋃n=1∞​An​)=limn​P(An​),称 P P P是上连续的。这个定义中需要注意的是,因为 A n ⊂ A n + 1 A_n \subset A_{n+1} An​⊂An+1​,所以 ⋃ n = 1 ∞ A n = lim ⁡ n A n \bigcup_{n=1}^{\infty}A_n=\lim_n A_n ⋃n=1∞​An​=limn​An​。

下连续 ∀ A n ∈ A , n = 1 , 2 , ⋯ \forall A_n \in \mathcal{A},n=1,2,\cdots ∀An​∈A,n=1,2,⋯, A n ⊃ A n + 1 A_n \supset A_{n+1} An​⊃An+1​,如果 P ( ⋂ n = 1 ∞ A n ) = lim ⁡ n P ( A n ) P(\bigcap_{n=1}^{\infty}A_n)=\lim_n P(A_n) P(⋂n=1∞​An​)=limn​P(An​),称 P P P是下连续的。

概率推上连续,记 A 0 = ϕ A_0=\phi A0​=ϕ,直接计算
P ( ⋃ n = 1 ∞ A n ) = P ( ⨆ n = 1 ∞ ( A n ∖ A n − 1 ) ) = ∑ n = 1 ∞ P ( A n ∖ A n − 1 ) = ∑ n = 1 ∞ [ P ( A n ) − P ( A n − 1 ) ] = P ( A ∞ ) − P ( A 0 ) = lim ⁡ n → ∞ P ( A n ) P(\bigcup_{n=1}^{\infty}A_n)=P(\bigsqcup_{n=1}^{\infty} (A_n\setminus A_{n-1}) ) = \sum_{n=1}^{\infty} P(A_n\setminus A_{n-1})\\ =\sum_{n=1}^{\infty} [P(A_n)-P(A_{n-1})] =P( A_{\infty})-P(A_0) = \lim_{n\to \infty} P(A_n) P(n=1⋃∞​An​)=P(n=1⨆∞​(An​∖An−1​))=n=1∑∞​P(An​∖An−1​)=n=1∑∞​[P(An​)−P(An−1​)]=P(A∞​)−P(A0​)=n→∞lim​P(An​)
概率推下连续,因为 A n ↓ A_n \downarrow An​↓,所以 A 1 ∖ A n ↑ A_1\setminus A_n \uparrow A1​∖An​↑,同时
⋃ n = 1 ∞ A 1 ∖ A n = ⋃ n = 1 ∞ A 1 ∩ A n C = A 1 ∩ ⋃ n = 1 ∞ A n C = A 1 ∩ ( ⋂ n = 1 ∞ A n ) C = A 1 ∖ ⋂ n = 1 ∞ A n \bigcup_{n=1}^{\infty} A_1\setminus A_n=\bigcup_{n=1}^{\infty} A_1\cap A_n^C = A_1 \cap \bigcup_{n=1}^{\infty} A_n^C = A_1 \cap \left( \bigcap_{n=1}^{\infty} A_n \right)^C = A_1 \setminus \bigcap_{n=1}^{\infty} A_n n=1⋃∞​A1​∖An​=n=1⋃∞​A1​∩AnC​=A1​∩n=1⋃∞​AnC​=A1​∩(n=1⋂∞​An​)C=A1​∖n=1⋂∞​An​

根据2,
lim ⁡ n → ∞ P ( A 1 ∖ A n ) = P ( ⋃ n = 1 ∞ ( A 1 ∖ A n ) ) \lim_{n\to \infty} P(A_1 \setminus A_n) = P(\bigcup_{n=1}^{\infty} (A_1\setminus A_n)) n→∞lim​P(A1​∖An​)=P(n=1⋃∞​(A1​∖An​))

基于 A n = A 1 ∖ ( A 1 ∖ A n ) A_n=A_1 \setminus (A_1\setminus A_n) An​=A1​∖(A1​∖An​),
P ( A n ) = P ( A 1 ) − P ( A 1 ∖ A n ) lim ⁡ n → ∞ P ( A n ) = P ( A 1 ) − lim ⁡ n → ∞ P ( A 1 ∖ A n ) = P ( A 1 ) − P ( ⋃ n = 1 ∞ ( A 1 ∖ A n ) ) = P ( A 1 ) − P ( A 1 ∖ ⋂ n = 1 ∞ A n ) = P ( ⋂ n = 1 ∞ A n ) P(A_n)=P(A_1)-P(A_1 \setminus A_n) \\ \lim_{n \to \infty}P(A_n)=P(A_1)-\lim_{n\to \infty} P(A_1 \setminus A_n) = P(A_1) - P(\bigcup_{n=1}^{\infty} (A_1\setminus A_n)) \\ = P(A_1) - P(A_1 \setminus \bigcap_{n=1}^{\infty} A_n ) = P(\bigcap_{n=1}^{\infty} A_n) P(An​)=P(A1​)−P(A1​∖An​)n→∞lim​P(An​)=P(A1​)−n→∞lim​P(A1​∖An​)=P(A1​)−P(n=1⋃∞​(A1​∖An​))=P(A1​)−P(A1​∖n=1⋂∞​An​)=P(n=1⋂∞​An​)

例4.2 离散型随机变量的累积分布函数
考虑几何分布,分布列为
P ( X = k ) = p ( 1 − p ) k , k = 0 , 1 , ⋯ P(X=k) = p(1-p)^k, k =0,1,\cdots P(X=k)=p(1−p)k,k=0,1,⋯

我们来按定义推导一下它的累积分布函数,考虑 F X ( x ) = P ( X ≤ x ) , ∀ x ∈ R F_X(x)=P(X \le x),\forall x \in \mathbb{R} FX​(x)=P(X≤x),∀x∈R,如果 x ∈ [ n , n + 1 ) x \in[n,n+1) x∈[n,n+1),则
F X ( x ) = P ( X ≤ x ) = ∑ k = 0 n P ( X = k ) = ∑ k = 0 n p ( 1 − p ) k = p [ 1 − ( 1 − p ) n ] 1 − ( 1 − p ) = 1 − ( 1 − p ) n F_X(x)=P(X \le x) = \sum_{k=0}^n P(X=k) \\ = \sum_{k=0}^n p(1-p)^k=\frac{p[1-(1-p)^n]}{1-(1-p)}=1-(1-p)^n FX​(x)=P(X≤x)=k=0∑n​P(X=k)=k=0∑n​p(1−p)k=1−(1−p)p[1−(1−p)n]​=1−(1−p)n

定义4.3 概率密度函数
如果 F X F_X FX​是可微的,即 ∀ x ∈ R \forall x \in \mathbb{R} ∀x∈R, ∃ h > 0 , ξ > 0 \exists h>0,\xi>0 ∃h>0,ξ>0
F X ( x + h ) = F X ( x ) + ξ h + o ( h ) F_X(x+h)=F_X(x)+\xi h +o(h) FX​(x+h)=FX​(x)+ξh+o(h)

这里的 ξ \xi ξ是 F X F_X FX​在 x x x处的导数,记为 f X ( x ) f_X(x) fX​(x),
f X ( x ) = lim ⁡ h → 0 F X ( x + h ) − F X ( x ) h f_X(x) = \lim_{h \to 0} \frac{F_X(x+h)-F_X(x)}{h} fX​(x)=h→0lim​hFX​(x+h)−FX​(x)​

称 f X f_X fX​是 X X X的概率密度函数(probability density function, pdf)。

定理4.2 概率密度函数的性质

  1. pdf的归一性
  2. 概率密度函数的非负性
  3. P ( a < X ≤ b ) = ∫ a b f X ( x ) d x P(a<X \le b)=\int_a^b f_X(x)dx P(a<X≤b)=∫ab​fX​(x)dx

证明
第一条,
∫ − ∞ + ∞ f X ( x ) d x = F X ( + ∞ ) − F X ( − ∞ ) = 1 \int_{-\infty}^{+\infty}f_X(x)dx=F_X(+\infty)-F_X(-\infty)=1 ∫−∞+∞​fX​(x)dx=FX​(+∞)−FX​(−∞)=1

第二条,因为 F X F_X FX​非减, F X ( x + h ) ≥ F X ( x ) F_X(x+h) \ge F_X(x) FX​(x+h)≥FX​(x),根据极限的保号性
f X ( x ) = lim ⁡ h → 0 F X ( x + h ) − F X ( x ) h ≥ 0 f_X(x) = \lim_{h \to 0} \frac{F_X(x+h)-F_X(x)}{h} \ge 0 fX​(x)=h→0lim​hFX​(x+h)−FX​(x)​≥0

第三条,
P ( a < X ≤ b ) = F ( b ) − F ( a ) = ∫ − ∞ b f X ( x ) d x − ∫ − ∞ a f X ( x ) d x = ∫ a b f X ( x ) d x P(a<X \le b) = F(b)-F(a) \\ = \int_{-\infty}^bf_X(x)dx- \int_{-\infty}^af_X(x)dx=\int_a^b f_X(x)dx P(a<X≤b)=F(b)−F(a)=∫−∞b​fX​(x)dx−∫−∞a​fX​(x)dx=∫ab​fX​(x)dx

定义4.4 期望与方差
假设 X X X是某个连续型随机变量, F X F_X FX​是cdf, f X f_X fX​是pdf,定义期望为
E X = ∫ − ∞ ∞ x f ( x ) d x EX = \int_{-\infty}^{\infty} xf(x)dx EX=∫−∞∞​xf(x)dx

定义方差为
V a r ( X ) = ∫ − ∞ ∞ ( x − E X ) 2 f X ( x ) d x = E X 2 − ( E X ) 2 Var(X) = \int_{-\infty}^{\infty}(x-EX)^2f_X(x)dx = EX^2-(EX)^2 Var(X)=∫−∞∞​(x−EX)2fX​(x)dx=EX2−(EX)2

定理4.3 生存函数计算期望
E X = ∫ − ∞ ∞ x f X ( x ) d x = ∫ − ∞ ∞ S X ( x ) d x EX = \int_{-\infty}^{\infty} xf_X(x)dx = \int_{-\infty}^{\infty}S_X(x)dx EX=∫−∞∞​xfX​(x)dx=∫−∞∞​SX​(x)dx

证明
我们用Fubini来证明这个等式,
∫ − ∞ ∞ x f X ( x ) d x = ∫ − ∞ ∞ ( ∫ 0 x d t ) f X ( x ) d x = ∫ − ∞ ∞ ∫ 0 x f X ( x ) d t d x = ∫ − ∞ ∞ ∫ t ∞ f X ( x ) d x d t \int_{-\infty}^{\infty} xf_X(x)dx=\int_{-\infty}^{\infty} \left( \int _0^x dt \right)f_X(x)dx \\ = \int_{-\infty}^{\infty} \int_0^x f_X(x)dtdx = \int_{-\infty}^{\infty}\int_t^{\infty} f_X(x)dxdt ∫−∞∞​xfX​(x)dx=∫−∞∞​(∫0x​dt)fX​(x)dx=∫−∞∞​∫0x​fX​(x)dtdx=∫−∞∞​∫t∞​fX​(x)dxdt

最后一个等号用的是Fubini定理,因为积分区域是 t < x t<x t<x,于是变换积分次序后内层积分区域为 x > t x >t x>t,内层积分为
∫ t ∞ f X ( x ) d x = 1 − F X ( t ) = S X ( t ) \int_t^{\infty} f_X(x)dx=1-F_X(t)=S_X(t) ∫t∞​fX​(x)dx=1−FX​(t)=SX​(t)

所以
∫ − ∞ ∞ ∫ t ∞ f X ( x ) d x d t = ∫ − ∞ ∞ S X ( t ) d t \int_{-\infty}^{\infty}\int_t^{\infty} f_X(x)dxdt=\int_{-\infty}^{\infty}S_X(t)dt ∫−∞∞​∫t∞​fX​(x)dxdt=∫−∞∞​SX​(t)dt

均匀分布

一元连续均匀分布 U [ a , b ] U[a,b] U[a,b]的密度为
f X ( x ) = 1 [ a , b ] ( x ) b − a = { 1 b − a , x ∈ [ a , b ] 0 , o t h e r w i s e f_X(x) = \frac{1_{[a,b]}(x)}{b-a} = \begin{cases} \frac{1}{b-a},x \in [a,b] \\ 0, otherwise \end{cases} fX​(x)=b−a1[a,b]​(x)​={b−a1​,x∈[a,b]0,otherwise​

它的累积分布函数为
F X ( x ) = { 0 , x ∈ ( − ∞ , a ] x − a b − a , x ∈ ( a , b ] 1 , x ∈ ( b , ∞ ) F_X(x)=\begin{cases} 0,x \in (-\infty,a] \\ \frac{x-a}{b-a},x \in (a,b] \\ 1, x \in (b,\infty) \end{cases} FX​(x)=⎩⎪⎨⎪⎧​0,x∈(−∞,a]b−ax−a​,x∈(a,b]1,x∈(b,∞)​

定理4.4
E X = a + b 2 , V a r ( X ) = ( b − a ) 2 12 EX=\frac{a+b}{2},Var(X) = \frac{(b-a)^2}{12} EX=2a+b​,Var(X)=12(b−a)2​

这两个结论留给读者证明。

指数分布

指数分布 E X P ( λ ) EXP(\lambda) EXP(λ)的密度函数为
f X ( x ) = λ 1 x ≥ 0 ( x ) e − λ x = { λ e − λ x , x ≥ 0 0 , o t h e r w i s e f_X(x)=\lambda 1_{x \ge 0}(x)e^{-\lambda x}= \begin{cases} \lambda e^{-\lambda x},x \ge 0 \\ 0,otherwise\end{cases} fX​(x)=λ1x≥0​(x)e−λx={λe−λx,x≥00,otherwise​

累积分布函数为
F X ( x ) = { 0 , x ∈ ( − ∞ , 0 ] 1 − e − λ x , x ∈ ( 0 , ∞ ) F_X(x)=\begin{cases} 0, x \in (-\infty,0] \\ 1-e^{-\lambda x},x \in (0,\infty)\end{cases} FX​(x)={0,x∈(−∞,0]1−e−λx,x∈(0,∞)​

定理4.5
E X = 1 λ , V a r ( X ) = 1 λ 2 EX = \frac{1}{\lambda},Var(X)=\frac{1}{\lambda^2} EX=λ1​,Var(X)=λ21​

这个定理也留给读者自行证明。

评注 关于指数分布有另一种定义, E X P ( 1 / λ ) EXP(1/\lambda) EXP(1/λ),它的密度函数为
f X ( x ) = 1 x ≥ 0 ( x ) e − x λ λ f_X(x)=\frac{1_{x \ge 0}(x)e^{-\frac{x}{\lambda}}}{\lambda} fX​(x)=λ1x≥0​(x)e−λx​​

期望与方差分别为 λ , λ 2 \lambda,\lambda^2 λ,λ2。

正态分布

正态分布是我们要讨论的重点,它是应用最广泛的一种连续型分布。

推导正态分布的密度(de Moivre-Laplace定理)

考虑二项分布的一些近似计算问题,考虑 X ∼ B i n o m ( n , p ) X \sim Binom(n,p) X∼Binom(n,p),
P ( X = k ) = C n k p k ( 1 − p ) n − k , k = 0 , 1 , ⋯   , n P(X = k) = C_n^k p^k(1-p)^{n-k},k=0,1,\cdots,n P(X=k)=Cnk​pk(1−p)n−k,k=0,1,⋯,n最主要的计算问题是在计算组合数的时候 C n k = n ! ( n − k ) ! k ! C_n^k = \frac{n!}{(n-k)!k!} Cnk​=(n−k)!k!n!​一般会根据这个公式按阶乘来计算,但阶乘的增长是很快的,数字比较大的时候通过阶乘计算组合数精度不理想。如果 n , k , n − k n,k,n-k n,k,n−k都比较大,就可以用Stirling公式(数学分析数列极限部分学过)近似计算阶乘:
n ! ≈ 2 π n n + 1 / 2 e − n C n k ≈ 2 π n n + 1 / 2 e − n ( 2 π ( n − k ) n − k + 1 / 2 e − n + k ) ( 2 π k k + 1 / 2 e − k ) = 1 2 π n ( n n − k ) n − k + 1 / 2 ( n k ) k + 1 / 2 n! \approx \sqrt{2\pi}n^{n+1/2}e^{-n}\\ C_n^k\approx \frac{\sqrt{2\pi}n^{n+1/2}e^{-n}}{(\sqrt{2\pi}(n-k)^{n-k+1/2}e^{-n+k})(\sqrt{2\pi}k^{k+1/2}e^{-k})} \\= \frac{1}{\sqrt{2\pi n}} \left( \frac{n}{n-k} \right)^{n-k+1/2} \left( \frac{n}{k} \right)^{k+1/2} n!≈2π ​nn+1/2e−nCnk​≈(2π ​(n−k)n−k+1/2e−n+k)(2π ​kk+1/2e−k)2π ​nn+1/2e−n​=2πn ​1​(n−kn​)n−k+1/2(kn​)k+1/2将这个组合数的近似公式带入二项分布的概率中 P ( X = k ) = 1 2 π n p ( 1 − p ) ( n ( 1 − p ) n − k ) n − k + 1 / 2 ( n p k ) k + 1 / 2 P(X=k) = \frac{1}{\sqrt{2\pi np(1-p)}} \left( \frac{n(1-p)}{n-k} \right)^{n-k+1/2} \left( \frac{np}{k} \right)^{k+1/2} P(X=k)=2πnp(1−p) ​1​(n−kn(1−p)​)n−k+1/2(knp​)k+1/2这个形式的好处是避开了大整数的阶乘运算。接下来我们进一步做点推导,看看有没有更简单的形式。考虑
ln ⁡ ( n p k ) k + 1 / 2 = − ( k + 1 / 2 ) ln ⁡ k n p \ln \left( \frac{np}{k}\right)^{k+1/2} = -(k+1/2)\ln \frac{k}{np} ln(knp​)k+1/2=−(k+1/2)lnnpk​记 x k = k − n p n p ( 1 − p ) ,   k = n p + x k n p ( 1 − p ) ln ⁡ ( n p k ) k + 1 / 2 = − ( n p + x k n p ( 1 − p ) + 1 / 2 ) ln ⁡ ( 1 + x k ( 1 − p ) n p ( 1 − p ) ) x_k = \frac{k-np}{\sqrt{np(1-p)}},\ k=np + x_k\sqrt{np(1-p)} \\ \ln \left( \frac{np}{k}\right)^{k+1/2}=-(np + x_k\sqrt{np(1-p)}+1/2)\ln \left( 1+\frac{x_k(1-p)}{\sqrt{np(1-p)}}\right) xk​=np(1−p) ​k−np​, k=np+xk​np(1−p) ​ln(knp​)k+1/2=−(np+xk​np(1−p) ​+1/2)ln(1+np(1−p) ​xk​(1−p)​)取Taylor展开的前两项做近似
ln ⁡ ( 1 + x k ( 1 − p ) n p ( 1 − p ) ) ≈ x k ( 1 − p ) n p ( 1 − p ) − ( x k ( 1 − p ) n p ( 1 − p ) ) 2 \ln \left( 1+\frac{x_k(1-p)}{\sqrt{np(1-p)}}\right) \approx \frac{x_k(1-p)}{\sqrt{np(1-p)}}-\left( \frac{x_k(1-p)}{\sqrt{np(1-p)}}\right)^2 ln(1+np(1−p) ​xk​(1−p)​)≈np(1−p) ​xk​(1−p)​−(np(1−p) ​xk​(1−p)​)2回带化简得
ln ⁡ ( n p k ) k + 1 / 2 ≈ − x k n p ( 1 − p ) − 1 2 ( 1 − p ) x k 2 ( n p k ) k + 1 / 2 = exp ⁡ ( − x k n p ( 1 − p ) − 1 − p 2 x k 2 ) \ln \left( \frac{np}{k}\right)^{k+1/2} \approx -x_k\sqrt{np(1-p)}-\frac{1}{2}(1-p)x_k^2 \\ \left( \frac{np}{k}\right)^{k+1/2} = \exp \left( -x_k\sqrt{np(1-p)} -\frac{1-p}{2}x_k^2\right) ln(knp​)k+1/2≈−xk​np(1−p) ​−21​(1−p)xk2​(knp​)k+1/2=exp(−xk​np(1−p) ​−21−p​xk2​)类似地 ( n ( 1 − p ) n − k ) n − k + 1 / 2 = exp ⁡ ( x k n p ( 1 − p ) − p 2 x k 2 ) \left( \frac{n(1-p)}{n-k}\right)^{n-k+1/2} = \exp \left( x_k\sqrt{np(1-p)} -\frac{p}{2}x_k^2\right) (n−kn(1−p)​)n−k+1/2=exp(xk​np(1−p) ​−2p​xk2​)
因此 P ( X = k ) = 1 2 π n p ( 1 − p ) exp ⁡ ( − x k 2 2 ) = ϕ ( x k ) n p ( 1 − p ) P(X=k) = \frac{1}{\sqrt{2\pi np(1-p)}} \exp\left( -\frac{x_k^2}{2}\right)=\frac{\phi(x_k)}{\sqrt{np(1-p)}} P(X=k)=2πnp(1−p) ​1​exp(−2xk2​​)=np(1−p) ​ϕ(xk​)​称 ϕ ( x ) \phi(x) ϕ(x)是标准正态分布的密度函数,这个结论叫做de Moivre-Laplace定理。

标准正态分布

现在我们有了标准正态分布的密度函数,
ϕ ( x ) = 1 2 π e − x 2 2 \phi(x) = \frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}} ϕ(x)=2π ​1​e−2x2​

现证明一下它满足归一性,计算积分
∫ − ∞ + ∞ e − x 2 2 d x \int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx ∫−∞+∞​e−2x2​dx

这种形式的积分有点难积,但技巧非常固定,就是凑重积分再换到极坐标下计算,如果 ∫ − ∞ + ∞ e − x 2 2 d x < ∞ \int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx<\infty ∫−∞+∞​e−2x2​dx<∞,则这个积分的值与符号没关系,
∫ − ∞ + ∞ e − x 2 2 d x = ∫ − ∞ + ∞ e − y 2 2 d y \int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx = \int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy ∫−∞+∞​e−2x2​dx=∫−∞+∞​e−2y2​dy

于是
∫ − ∞ + ∞ e − x 2 2 d x = ∫ − ∞ + ∞ e − x 2 2 d x ∫ − ∞ + ∞ e − y 2 2 d y \int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx = \sqrt{\int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy} ∫−∞+∞​e−2x2​dx=∫−∞+∞​e−2x2​dx∫−∞+∞​e−2y2​dy

根据Fubini定理,
∫ − ∞ + ∞ e − x 2 2 d x ∫ − ∞ + ∞ e − y 2 2 d y = ∫ − ∞ + ∞ ∫ − ∞ + ∞ e − x 2 + y 2 2 d x d y \int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx\int_{-\infty}^{+\infty}e^{-\frac{y^2}{2}}dy = \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}e^{-\frac{x^2+y^2}{2}}dxdy ∫−∞+∞​e−2x2​dx∫−∞+∞​e−2y2​dy=∫−∞+∞​∫−∞+∞​e−2x2+y2​dxdy

现在我们把这个积分变换到极坐标下,
{ x = r cos ⁡ θ y = r sin ⁡ θ ⇔ { r = x 2 + y 2 θ = arctan ⁡ y x , θ ∈ [ 0 , 2 π ] , r ∈ [ 0 , ∞ ) \begin{cases} x = r\cos \theta \\ y = r \sin \theta \end{cases} \Leftrightarrow \begin{cases} r = \sqrt{x^2+y^2} \\ \theta = \arctan \frac{y}{x} \end{cases},\theta \in [0,2\pi],r \in [0,\infty) {x=rcosθy=rsinθ​⇔{r=x2+y2 ​θ=arctanxy​​,θ∈[0,2π],r∈[0,∞)

计算Jacobi行列式
∂ ( x , y ) ∂ ( r , θ ) = ∣ cos ⁡ θ − r sin ⁡ θ sin ⁡ θ r cos ⁡ θ ∣ = r \frac{\partial (x,y)}{\partial (r,\theta)} = \left| \begin{matrix} \cos \theta &-r\sin \theta \\ \sin \theta & r\cos \theta \end{matrix} \right|=r ∂(r,θ)∂(x,y)​=∣∣∣∣​cosθsinθ​−rsinθrcosθ​∣∣∣∣​=r

根据积分换元公式,
∫ − ∞ + ∞ ∫ − ∞ + ∞ e − x 2 + y 2 2 d x d y = ∫ 0 ∞ ∫ 0 2 π r e − r 2 2 d r d θ = 2 π ∫ 0 ∞ r e − r 2 2 d r = − 2 π e − r 2 2 ∣ 0 ∞ = 2 π \int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}e^{-\frac{x^2+y^2}{2}}dxdy=\int_{0}^{\infty}\int_0^{2\pi}re^{-\frac{r^2}{2}}drd\theta \\ = 2\pi \int_0^{\infty}re^{-\frac{r^2}{2}}dr=-2\pi e^{-\frac{r^2}{2}}|_0^{\infty}=2\pi ∫−∞+∞​∫−∞+∞​e−2x2+y2​dxdy=∫0∞​∫02π​re−2r2​drdθ=2π∫0∞​re−2r2​dr=−2πe−2r2​∣0∞​=2π

所以
∫ − ∞ + ∞ e − x 2 2 d x = 2 π \int_{-\infty}^{+\infty}e^{-\frac{x^2}{2}}dx = \sqrt{2\pi} ∫−∞+∞​e−2x2​dx=2π

因此归一性成立。然而遗憾的是,这个技巧仅仅对于积分区域为 R 2 \mathbb{R}^2 R2的情况才适用,所以当我们要计算标准正态分布的累积分布函数时,就没有办法用这个技巧了,也就是说我们没有办法写出标准正态分布的不含积分的解析式。定义 Φ ( x ) \Phi(x) Φ(x)为标准正态分布的累积分布函数,则
Φ ( x ) = ∫ − ∞ x ϕ ( t ) d t \Phi(x) = \int_{-\infty}^x \phi(t)dt Φ(x)=∫−∞x​ϕ(t)dt

定理4.6 记 X X X为标准正态变量, E X = 0 , V a r ( X ) = 1 EX=0,Var(X)=1 EX=0,Var(X)=1
证明
E X = ∫ − ∞ ∞ x 2 π e − x 2 2 d x EX = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx EX=∫−∞∞​2π ​x​e−2x2​dx

其中 x e − x 2 / 2 xe^{-x^2/2} xe−x2/2是奇函数,积分区域关于原点对称,根据积分的性质, ∫ − ∞ ∞ x 2 π e − x 2 2 d x = 0 \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx=0 ∫−∞∞​2π ​x​e−2x2​dx=0,于是 E X = 0 EX=0 EX=0。下面我们计算 E X 2 EX^2 EX2,
E X 2 = ∫ − ∞ ∞ x 2 2 π e − x 2 2 d x = ∫ − ∞ ∞ x 2 π e − x 2 2 d x 2 2 = − ∫ − ∞ ∞ x 2 π d e − x 2 2 = − x 2 π e − x 2 2 ∣ − ∞ ∞ + ∫ − ∞ ∞ 1 2 π e − x 2 2 d x = 1 EX^2 = \int_{-\infty}^{\infty}\frac{x^2}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx \\ = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}d\frac{x^2}{2} = -\int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}}de^{-\frac{x^2}{2}} \\ = -\frac{x}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}|_{-\infty}^{\infty}+\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}}e^{-\frac{x^2}{2}}dx = 1 EX2=∫−∞∞​2π ​x2​e−2x2​dx=∫−∞∞​2π ​x​e−2x2​d2x2​=−∫−∞∞​2π ​x​de−2x2​=−2π ​x​e−2x2​∣−∞∞​+∫−∞∞​2π ​1​e−2x2​dx=1

第一项是0,第二项就是归一性。因此
V a r ( X ) = E X 2 − ( E X ) 2 = 1 Var(X)=EX^2-(EX)^2=1 Var(X)=EX2−(EX)2=1

一般的正态分布

定义4.5 一般的正态分布
如果 Z Z Z服从标准正态分布,记为 Z ∼ N ( 0 , 1 ) Z \sim N(0,1) Z∼N(0,1),如果 μ , σ ∈ R \mu,\sigma \in \mathbb{R} μ,σ∈R, X = μ + σ Z X = \mu+\sigma Z X=μ+σZ,则 X X X服从一般的正态分布,记为 X ∼ N ( μ , σ 2 ) X \sim N(\mu,\sigma^2) X∼N(μ,σ2),称 Z Z Z是 X X X的z-score。

定理4.7 一般正态分布的pdf
f X ( x ) = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_X(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x-\mu)^2}{2\sigma^2}} fX​(x)=2π ​σ1​e−2σ2(x−μ)2​

证明
因为我们还没有推导能处理随机变量的函数的方法,所以只能根据定义来计算。
F X ( x ) = P ( X ≤ x ) = P ( μ + σ Z ≤ x ) = P ( Z ≤ x − μ σ ) = ∫ ∞ x − μ σ 1 2 π e − t 2 2 d t F_X(x)=P(X \le x) = P(\mu+\sigma Z\le x) \\ = P(Z \le \frac{x-\mu}{\sigma}) = \int_{\infty}^{\frac{x-\mu}{\sigma}}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt FX​(x)=P(X≤x)=P(μ+σZ≤x)=P(Z≤σx−μ​)=∫∞σx−μ​​2π ​1​e−2t2​dt

根据这个结果我们可以推导密度函数,需要的技术是对积分上限求导,
f X ( x ) = ( x − μ σ ) ′ 1 2 π e − t 2 2 ∣ t = x − μ σ = 1 2 π σ e − ( x − μ ) 2 2 σ 2 f_X(x)=\left( \frac{x-\mu}{\sigma} \right)'\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}|_{t=\frac{x-\mu}{\sigma}} = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}} fX​(x)=(σx−μ​)′2π ​1​e−2t2​∣t=σx−μ​​=2π ​σ1​e−2σ2(x−μ)2​

下下讲我们会推导计算随机变量的函数的分布的方法。

定理4.8 E X = μ , V a r ( X ) = σ 2 EX=\mu,Var(X)=\sigma^2 EX=μ,Var(X)=σ2
证明
也就是直接计算了,先计算期望,
E X = ∫ − ∞ ∞ x 2 π σ e − ( x − μ ) 2 2 σ 2 d x = ∫ − ∞ ∞ ( x − μ ) 2 π σ e − ( x − μ ) 2 2 σ 2 d x + ∫ − ∞ ∞ μ 2 π σ e − ( x − μ ) 2 2 σ 2 d x = μ EX = \int_{-\infty}^{\infty}\frac{x}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \\ = \int_{-\infty}^{\infty}\frac{(x-\mu)}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx+\int_{-\infty}^{\infty}\frac{\mu}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\mu EX=∫−∞∞​2π ​σx​e−2σ2(x−μ)2​dx=∫−∞∞​2π ​σ(x−μ)​e−2σ2(x−μ)2​dx+∫−∞∞​2π ​σμ​e−2σ2(x−μ)2​dx=μ

第一项就是简单换元,然后就又是奇函数的积分,
∫ − ∞ ∞ ( x − μ ) 2 π σ e − ( x − μ ) 2 2 σ 2 d x = y = x − μ ∫ − ∞ ∞ y 2 π σ e − y 2 2 σ 2 d y = 0 \int_{-\infty}^{\infty}\frac{(x-\mu)}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx =_{y=x-\mu} \int_{-\infty}^{\infty}\frac{y}{\sqrt{2\pi}\sigma}e^{-\frac{y^2}{2\sigma^2}}dy=0 ∫−∞∞​2π ​σ(x−μ)​e−2σ2(x−μ)2​dx=y=x−μ​∫−∞∞​2π ​σy​e−2σ2y2​dy=0

第二项根据归一性,
∫ − ∞ ∞ μ 2 π σ e − ( x − μ ) 2 2 σ 2 d x = μ ∫ − ∞ ∞ 1 2 π σ e − ( x − μ ) 2 2 σ 2 d x = μ \int_{-\infty}^{\infty}\frac{\mu}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx = \mu\int_{-\infty}^{\infty}\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx = \mu ∫−∞∞​2π ​σμ​e−2σ2(x−μ)2​dx=μ∫−∞∞​2π ​σ1​e−2σ2(x−μ)2​dx=μ

接下来计算 E X 2 EX^2 EX2,
E X 2 = ∫ − ∞ ∞ x 2 2 π σ e − ( x − μ ) 2 2 σ 2 d x = ∫ − ∞ ∞ [ μ + ( x − μ ) ] 2 2 π σ e − ( x − μ ) 2 2 σ 2 d x = ∫ − ∞ ∞ μ 2 2 π σ e − ( x − μ ) 2 2 σ 2 d x + ∫ − ∞ ∞ ( x − μ ) 2 2 π σ e − ( x − μ ) 2 2 σ 2 d x + ∫ − ∞ ∞ 2 μ ( x − μ ) 2 π σ e − ( x − μ ) 2 2 σ 2 d x EX^2 = \int_{-\infty}^{\infty}\frac{x^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx=\int_{-\infty}^{\infty}\frac{[\mu+(x-\mu)]^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \\ = \int_{-\infty}^{\infty}\frac{\mu^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx+\int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx \\ + \int_{-\infty}^{\infty}\frac{2\mu(x-\mu)}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx EX2=∫−∞∞​2π ​σx2​e−2σ2(x−μ)2​dx=∫−∞∞​2π ​σ[μ+(x−μ)]2​e−2σ2(x−μ)2​dx=∫−∞∞​2π ​σμ2​e−2σ2(x−μ)2​dx+∫−∞∞​2π ​σ(x−μ)2​e−2σ2(x−μ)2​dx+∫−∞∞​2π ​σ2μ(x−μ)​e−2σ2(x−μ)2​dx

根据归一性,第一项等于 μ 2 \mu^2 μ2,根据奇函数的性质,第三项为0,下面计算第二项,
∫ − ∞ ∞ ( x − μ ) 2 2 π σ e − ( x − μ ) 2 2 σ 2 d x = y = x − μ ∫ − ∞ ∞ y 2 2 π σ e − y 2 2 σ 2 d y = z = y / σ σ 2 ∫ − ∞ ∞ z 2 2 π e − z 2 2 d z \int_{-\infty}^{\infty}\frac{(x-\mu)^2}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}dx =_{y=x-\mu} \int_{-\infty}^{\infty}\frac{y^2}{\sqrt{2\pi}\sigma}e^{-\frac{y^2}{2\sigma^2}}dy \\ =_{z=y/\sigma} \sigma^2 \int_{-\infty}^{\infty}\frac{z^2}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz ∫−∞∞​2π ​σ(x−μ)2​e−2σ2(x−μ)2​dx=y=x−μ​∫−∞∞​2π ​σy2​e−2σ2y2​dy=z=y/σ​σ2∫−∞∞​2π ​z2​e−2z2​dz

显然 ∫ − ∞ ∞ z 2 2 π e − z 2 2 d z \int_{-\infty}^{\infty}\frac{z^2}{\sqrt{2\pi}}e^{-\frac{z^2}{2}}dz ∫−∞∞​2π ​z2​e−2z2​dz是标准正态分布的方差,所以第二项等于 σ 2 \sigma^2 σ2,于是 V a r ( X ) = E X 2 − ( E X ) 2 = σ 2 + μ 2 − μ 2 = σ 2 Var (X) = EX^2-(EX)^2 = \sigma^2 + \mu^2 - \mu^2 = \sigma^2 Var(X)=EX2−(EX)2=σ2+μ2−μ2=σ2

上一篇:傅立叶变换


下一篇:ACM之Java速成(2)