文章目录
1. 基本概念
1.1 定律 vs 定理
开局先来两张图,第一张是浙大的概率论教材,第二张是陈希孺老师的概率论教材。
定律(law)是根据实验证明出来的(有时候只是知其然不知其所以然),定理(theorem)是数学证明,有前提假设、证明过程和证明结果的。所以在这里使用定理更为合适。
N:简单来说,定理指的是理论,定律指的是规律。
陈希孺课本后面进行了详细的解释:
在概率论中,大数定理常称为“大数定律”。这个字面上的不同,也不见得有很特殊的含义。但是,“定理”一词往往用于指那种能用数学工具严格证明的东西,而“定律”则不一定是这样,如牛顿的力学三大定律,电学中的欧姆定律之类。这牵涉到一个从哪个角度去看的问题。像(4.2)式这样有确切的数学表述,并能在一定的理论框架内证明的结果,称之为“定理”无疑是恰当的。可是,当我们泛泛地谈论“平均值的稳定性”(即稳定到理论上的期望值)时,这表述了一种全人类多年的集体经验,有些哲理的味道。而且这种意识也远早于现代概率论给以严格表述之前,因,,称之为“定律”也不算不恰当。
1.2 频率 vs 概率
概率是理想值,频率是实验值;例如抛理想均等硬币10000次正反面出现正面的频率是 0.5 ± ϵ 0.5 \pm \epsilon 0.5±ϵ,其中 ϵ \epsilon ϵ表示误差,然而由大数定律可以证明当频率减去概率的模小于任意正数的时候可以认为在无穷多次实验中的频率值无限收敛与概率值;可以说大数定律是现实和理论的一个纽带,一个桥梁;所以当且仅当实验次数很大时频率和概率可以同台而舞,这就是频率和概率的本质差别。
2. 前言
若对某一有限范围的
x
x
x计算和:
a
n
(
x
)
=
1
+
x
+
x
2
2
!
+
x
3
3
!
+
⋯
+
x
n
n
!
a_n(x)=1+x+\frac{x^2}{2!}+\frac{x^3}{3!}+\dots+\frac{x^n}{n!}
an(x)=1+x+2!x2+3!x3+⋯+n!xn
则在n固定但很大时很难求,而一经取极限,则有简单的结果: lim a n ( x ) = e x \lim a_n( x )= e^x liman(x)=ex利用这个结果,当n很大时,可以把 e x e^x ex作为 a n ( x ) a_n (x) an(x)的近似值。
在概率论中也存在着这种情况.如果 X 1 , X 2 , … , X n X_1,X_2, \dots ,X_n X1,X2,…,Xn是一些随机变量,则 X 1 + X 2 + ⋯ + X n X_1+X_2+\dots+X_n X1+X2+⋯+Xn的分布,除了若干例外,算起来很复杂,因而自然地会提出问题:可否利用极限的方法来进行近似计算?事实证明这不仅可能,且更有利的是:在很一般的情况下﹐和的极限分布就是正态分布。这一事实增加了正态分布的重要性。在概率论上,习惯于把和的分布收敛于正态分布的那一类定理都叫做“中心极限定理”。
N:如果极限存在,则收敛于某个值。所以上述的和的极限分布是正态分布以及和的分布收敛于正态分布是等价的。
在概率论中,另一类重要的极限定理是所谓“大数定理”。它是由概率的统计定义“频率收敛于概率”引申而来的。为描述这一点,我们把频率通过一些随机变量的和表示出来。设做了n次独立试验,每次观察某事件A是否发生。按(1.20)式定义随机变量 X i ( i = 1 , … , n ) X_i( i = 1,…,n ) Xi(i=1,…,n)。则在这 n n n次试验中事件 A A A一共出现了 X 1 + X 2 + ⋯ + X n X_1+X_2+\dots+X_n X1+X2+⋯+Xn,而频率为
p n = X 1 + X 2 + ⋯ + X n n = X ‾ n p_n=\frac{X_1+X_2+\dots+X_n}{n}=\overline X_n pn=nX1+X2+⋯+Xn=Xn
若
P
(
A
)
=
p
P(A)= p
P(A)=p ,则“频率趋于概率”就是说,在某种意义下(详见下文),当n很大时
p
n
p_n
pn接近于p。但 p就是
X
i
X_i
Xi的期望值,故也可以写成:
当
n
很
大
时
X
‾
n
接
近
于
X
i
的
期
望
值
当n很大时\overline X_n接近于X_i的期望值
当n很大时Xn接近于Xi的期望值
较一般情况下的大数定理中“大数”的意思,就是指涉及大量数目的观察值 X i X_i Xi,它表明这种定理中指出的现象只有在大量次数的试验和观察之下才能成立。
3. 大数定理
设
X
1
,
X
2
,
…
,
X
n
,
…
X_1,X_2, \dots ,X_n,\dots
X1,X2,…,Xn,…是独立同分布的随机变量,记它们的公共均值为
a
a
a,又设它们的方差存在并记为
σ
2
\sigma^2
σ2。则对任意给定的
ϵ
>
0
\epsilon>0
ϵ>0,有:
lim
n
→
∞
∣
X
‾
n
−
a
∣
<
ϵ
\lim _{n\rightarrow \infty } |\overline X_n-a|<\epsilon
n→∞lim∣Xn−a∣<ϵ
Q:
X
‾
n
\overline X_n
Xn是频率还是a的频率?
A:a是概率,
X
‾
n
\overline X_n
Xn是频率。
4. 中心极限定理
设 X 1 , X 2 , … , X n , … X_1,X_2,\dots, X_n,… X1,X2,…,Xn,…为独立同分布的随机变量, E ( X ) = a , V a r ( X ) = σ 2 ( 0 < σ 2 < ∞ ) E(X)= a, Var(X) =\sigma^2(0<\sigma^2<\infty ) E(X)=a,Var(X)=σ2(0<σ2<∞)。则对任何实数 x x x,有:
lim n → ∞ P ( 1 n σ ( X 1 + ⋯ + X n − n a ) ≤ x ) = Φ ( x ) \lim _{n \rightarrow \infty} P(\frac{1}{\sqrt{n \sigma}} (X_1+\dots+X_n - na)≤x)=\Phi(x) n→∞limP(nσ 1(X1+⋯+Xn−na)≤x)=Φ(x)