正太分布和概率密度函数,期望值,方差
正态分布(Normal distribution),又名高斯分布(Gaussian distribution)是一个非常常见的连续概率分布。正态分布在统计学上十分重要,经常用在自然和社会科学来代表一个不明的随机变量1。
正态分布的形状由平均值
μ
\mu
μ和方差
σ
2
\sigma^2
σ2所决定。
一个 服从 随机变量
X
X
X的正态分布可以写成
X
~
N
o
r
m
a
l
(
μ
,
σ
2
)
;
o
r
X
~
N
(
μ
,
σ
2
)
X~Normal(\mu, \sigma^2); or X~N(\mu, \sigma^2)
X~Normal(μ,σ2);orX~N(μ,σ2)
正态分布的概率密度函数(Probability density function,PDF),以及期望值(Expected value)和方差(Varience)如下
随机变量
X
X
X服从正态分布时,他的概率密度函数可以表示为
f
X
(
x
)
=
1
2
π
σ
e
−
(
x
−
μ
)
2
2
σ
2
or
f
X
(
x
)
=
1
2
π
⋅
σ
exp
(
−
(
x
−
μ
)
2
2
σ
2
)
(
−
∞
<
×
∞
)
f_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma} e^{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}} \text { or } f_{X}(x)=\frac{1}{\sqrt{2 \pi} \cdot \sigma} \exp \left(-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right)(-\infty<\times \infty)
fX(x)=2π
σ1e−2σ2(x−μ)2 or fX(x)=2π
⋅σ1exp(−2σ2(x−μ)2)(−∞<×∞)
*e是自然数大约为2.718
*期待值
E
(
X
)
=
μ
E(X)=\mu
E(X)=μ
*方差
V
a
r
(
X
)
=
σ
2
Var(X)=\sigma^2
Var(X)=σ2
正态分布例
我们知道相同环境下的一组数据中,每个人的身高是服从正态分布的。
假定随机抽取A地区成年男性的随A机变量为X,X服从平均值
μ
=
171
c
m
,
方
差
σ
2
=
64
\mu=171cm,方差\sigma^2=64
μ=171cm,方差σ2=64的正态分布。
我们就可以写成
X
~
N
(
171
,
64
)
X~N(171, 64)
X~N(171,64)。
可以求出这个分布的概率密度函数,期望值和方差
- 概率密度函数
f X ( x ) = 1 2 π × 8 e − ( x − 172 ) 2 2 × 8 2 = 1 8 2 π e − ( x − 172 ) 2 128 f_X(x)=\frac{1}{\sqrt{2\pi}\times8}e^{-\frac{(x-172)^2}{2\times8^2}}=\frac{1}{8\sqrt{2\pi}}e^{-\frac{(x-172)^2}{128}} fX(x)=2π ×81e−2×82(x−172)2=82π 1e−128(x−172)2 - 期望值
E ( x ) = μ = 171 E(x)=\mu=171 E(x)=μ=171 - 方差
V a r ( x ) = σ 2 = 64 Var(x)=\sigma^2=64 Var(x)=σ2=64
68-95-99.7法则
对于正态分布,分别有68%,95%,99.7%的几率在平均值±1标准偏差( μ ± 1 σ \mu\pm1\sigma μ±1σ), μ ± 2 σ \mu\pm2\sigma μ±2σ, μ ± 3 σ \mu\pm3\sigma μ±3σ的范围内发生概率事件。(一组数据有68%的几率落在( μ ± 1 σ \mu\pm1\sigma μ±1σ)的范围里)
范围 | 概率 |
---|---|
μ ± 1 σ \mu\pm1\sigma μ±1σ | 68% |
μ ± 2 σ \mu\pm2\sigma μ±2σ | 95% |
μ ± 3 σ \mu\pm3\sigma μ±3σ | 99.7% |
接着上述的实例,随机抽取xx地区成年男性的随机变量为X,X服从平均值 μ = 171 c m , 方 差 σ 2 = 64 \mu=171cm,方差\sigma^2=64 μ=171cm,方差σ2=64的正态分布。可以知道这里的标准偏差 σ \sigma σ也就是8。
平均值前后1倍标准偏差
σ
\sigma
σ的范围是163~179,所以我们可以知道A地区有68%的成年男性身高范围在163cm以上179cm以下。
换句话说,随机抽取A地区的一位成年男性,他的身高在163~179范围的几率为68%。
正态分布可以表示为如下图。
另外,这个正态分布的曲线,是通过上述的概率函数求得:
f
X
(
x
)
=
1
8
2
π
e
−
(
x
−
172
)
2
128
f_X(x)=\frac{1}{8\sqrt{2\pi}}e^{-\frac{(x-172)^2}{128}}
fX(x)=82π
1e−128(x−172)2
对这个概率函数在163~179的范围内进行积分可以得到
∫
163
179
1
8
2
π
e
−
(
x
−
171
)
2
128
d
x
≈
0.683
\int_{163}^{179} \frac{1}{8 \sqrt{2 \pi}} e^{-\frac{(x-171)^{2}}{128}} d x \approx 0.683
∫16317982π
1e−128(x−171)2dx≈0.683
这里也可以看出这个概率大约为68%
同样我们也可以求出平均值±2倍标准偏差(
μ
±
2
σ
\mu\pm2\sigma
μ±2σ)的的范围在155~187cm,所以知道A地区的有95%的成年男性身高在155~187cm范围。
我们也可以说随机抽取A地区以为成年男性,他的身高在155~187cm的几率为98%。
最后同样,因为平均值±3标准偏差(
μ
±
2
σ
\mu\pm2\sigma
μ±2σ)为147~195。
我们可以知道A地区有99.7%的成年男性的身高在147~195cm范围内,如下图。
总结
- 同样我们也可以通过积分概率密度函数求得某个固定区域身高的发生概率。
- 68-95-99.7%法则表示了数据落在某个范围的概率,他与95%CI置信区间的含义不一样,注意不要混淆。关于与95%CI的区别会另外讨论。
- 这里讨论的正态分布都是假定这组数据是服从正太分布的,实际一组实验数据是否服从正态分布需要做正态分布的检验,比如做Shapiro-Wilk正态检验,或者制作分位图进行分析(Q-Q plot)。
-
Wikipedia ↩︎