二项分布
二项分布就是重复 \(n\) 次独立的伯努利试验,在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变。即一枚硬币扔 \(n\) 次,扔出正面概率为 \(p\) ,得到 \(k\) 次正面的概率:
\[P(X=k)=\binom{n}{k}p^k(1-p)^{n-k},k=0,1,\cdots,n \]这个分布称为二项分布,记为 \(X\sim b(n,p)\) .
\(n=1\) 时的二项分布 \(b(1,p)\) 称为二点分布,或称0-1分布,或称伯努利分布,其分布列为
\[P(X=x)=p^{x}(1-p)^{1-x}, x=0,1. \]二项分布的数学期望和方差
设随机变量 \(X\sim b(n,p)\) ,则
\[\begin{aligned} E(X) &=\sum_{k=0}^{n} k\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k}=n p \sum_{k=1}^{n}\left(\begin{array}{l} n-1 \\ k-1 \end{array}\right) p^{k-1}(1-p)^{(n-1)-(k-1)} \\ &=n p[p+(1-p)]^{n-1}=n p \end{aligned} \]又因为
\[\begin{aligned} E\left(X^{2}\right) &=\sum_{k=0}^{n} k^{2}\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k}=\sum_{k=1}^{n}(k-1+1) k\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k} \\ &=\sum_{k=1}^{n} k(k-1)\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k}+\sum_{k=1}^{n} k\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k} \\ &=\sum_{k=2}^{n} k(k-1)\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k}+n p \\ &=n(n-1) p^{2} \sum_{k=2}^{n}\left(\begin{array}{l} n-2 \\ k-2 \end{array}\right) p^{k-2}(1-p)^{(n-2)-(k-2)}+n p \\ &=n(n-1) p^{2}+n p \end{aligned} \]由此得 \(X\) 的方差为
\[\operatorname{Var}(X)=E\left(X^{2}\right)-(E(X))^{2}=n(n-1) p^{2}+n p-(n p)^{2}=n p(1-p) \]泊松分布
泊松分布的概率分布列是
\[P(X=k)=\frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda}, k=0,1,2, \cdots \]其中参数 \(\lambda>0\) ,记为 \(X\sim P(\lambda)\) .
泊松分布的数学期望和方差
设随机变量 \(X\sim P(\lambda)\) ,则
\[E(X)=\sum_{k=0}^{\infty} k \frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda}=\lambda \mathrm{e}^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1) !}=\lambda \mathrm{e}^{-\lambda} \mathrm{e}^{\lambda}=\lambda \]又因为
\[\begin{aligned} E\left(X^{2}\right) &=\sum_{k=0}^{\infty} k^{2} \frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda}=\sum_{k=1}^{\infty} k \frac{\lambda^{k}}{(k-1) !} \mathrm{e}^{-\lambda} \\ &=\sum_{k=1}^{\infty}[(k-1)+1] \frac{\lambda^{k}}{(k-1) !} \mathrm{e}^{-\lambda} \\ &=\lambda^{2} \mathrm{e}^{-\lambda} \sum_{k=2}^{\infty} \frac{\lambda^{k-2}}{(k-2) !}+\lambda \mathrm{e}^{-\lambda} \sum_{k=1}^{\infty} \frac{\lambda^{k-1}}{(k-1) !} \\ &=\lambda^{2}+\lambda \end{aligned} \]由此得 \(X\) 的方差为
\[\operatorname{Var}(X)=E\left(X^{2}\right)-(E(X))^{2}=\lambda^{2}+\lambda-\lambda^{2}=\lambda \]二项分布的泊松近似
(泊松定理) 在 \(n\) 重伯努利试验中,记事件 \(A\) 在一次试验中发生的概率为 \(p_n\) (与试验次数 \(n\) 有关),如果当 \(b\to\infty\) 时,有 \(np_n\to\lambda\) , 则
\[\lim _{n \rightarrow \infty}\left(\begin{array}{l} n \\ k \end{array}\right) p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda} \]证明: 记 \(np_n=\lambda_n\) , 可得
\[\begin{aligned} \left(\begin{array}{l} n \\ k \end{array}\right) p_{n}^{k}\left(1-p_{n}\right)^{n-k} &=\frac{n(n-1) \cdots(n-k+1)}{k !}\left(\frac{\lambda_{n}}{n}\right)^{k}\left(1-\frac{\lambda_{n}}{n}\right)^{n-k} \\ &=\frac{\lambda_{n}^{k}}{k !}\left(1-\frac{1}{n}\right)\left(1-\frac{2}{n}\right) \cdots\left(1-\frac{k-1}{n}\right)\left(1-\frac{\lambda_{n}}{n}\right)^{n-k} \end{aligned} \]对固定的 \(k\) 有
\[\lim _{n \rightarrow \infty} \lambda_{n}=\lambda \] \[\lim _{n \rightarrow \infty}\left(1-\frac{\lambda_{n}}{n}\right)^{n-k}=\mathrm{e}^{-\lambda} \] \[\lim _{n \rightarrow \infty}\left(1-\frac{1}{n}\right) \cdots\left(1-\frac{k-1}{n}\right)=1 \]从而
\[\lim _{n \rightarrow \infty}\left(\begin{array}{l} n \\ k \end{array}\right) p_{n}^{k}\left(1-p_{n}\right)^{n-k}=\frac{\lambda^{k}}{k !} \mathrm{e}^{-\lambda} \]对任意的 \(k=0,1,\cdots\) 成立.定理得证.
由于泊松定理是在条件 \(np_n\to\lambda\) 下得到的,故在计算二项分布 \(b(n,p)\) 时,当 \(n\) 很大, \(p\) 很小,而 \(\lambda=np\) 大小适中时,可以用泊松公式近似,即
\[\left(\begin{array}{l} n \\ k \end{array}\right) p_{n}^{k}\left(1-p_{n}\right)^{n-k} \approx \frac{(n p)^{k}}{k !} \mathrm{e}^{-n p}, k=0,1,2, \cdots \]通常当 \(n\geqslant20,p\leqslant0.05\) 时,就可以用泊松公式近似得计算。
超几何分布
从一个有限总体中进行不放回抽样常会遇到超几何分布.设有 \(N\) 件产品,其中有 \(M\) 件不合格品.若从中不放回地随机抽取 \(n\) 件,则其中含有的不合格品的件数 \(X\) 服从超几何分布,记为 \(X\sim h ( n,N ,M)\) .超几何分布的概率分布列为
\[P(X=k)=\frac{\left(\begin{array}{l} M \\ k \end{array}\right)\left(\begin{array}{l} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)}, k=0,1, \cdots, r \]其中 \(r=\min(M,n)\) , 且 \(M\leqslant N,n\leqslant N,n,N,M\) 均为正整数.
超几何分布的数学期望和方差
若 \(X\sim h ( n,N ,M)\) ,则 \(X\) 的数学期望为
\[E(X)=\sum_{k=0}^{r} k \frac{\left(\begin{array}{c} M \\ k \end{array}\right)\left(\begin{array}{c} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)}=n \frac{M}{N} \sum_{k=1}^{r} \frac{\left(\begin{array}{c} M-1 \\ k-1 \end{array}\right)\left(\begin{array}{c} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{c} N-1 \\ n-1 \end{array}\right)}=n \frac{M}{N} \]又因为
\[\begin{aligned} E\left(X^{2}\right) &=\sum_{k=1}^{r} k^{2} \frac{\left(\begin{array}{c} M \\ k \end{array}\right)\left(\begin{array}{c} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{c} N \\ n \end{array}\right)}=\sum_{k=2}^{r} k(k-1) \frac{\left(\begin{array}{c} M \\ k \end{array}\right)\left(\begin{array}{c} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{c} N \\ n \end{array}\right)}+n \frac{M}{N} \\ &=\frac{M(M-1)}{\left(\begin{array}{c} N \\ n \end{array}\right)} \sum_{k=2}^{r}\left(\begin{array}{c} M-2 \\ k-2 \end{array}\right)\left(\begin{array}{c} N-M \\ n-k \end{array}\right)+n \frac{M}{N} \\ &=\frac{M(M-1)}{\left(\begin{array}{l} N \\ n \end{array}\right)}\left(\begin{array}{c} N-2 \\ n-2 \end{array}\right)+n \frac{M}{N}=\frac{M(M-1) n(n-1)}{N(N-1)}+n \frac{M}{N} \end{aligned} \]由此得 \(X\) 的方差为
\[\operatorname{Var}(X)=E\left(X^{2}\right)-[E(X)]^{2}=\frac{n M(N-M)(N-n)}{N^{2}(N-1)} \]超几何分布的二项近似
当 \(n \ll N\) 时,即抽取个数 \(n\) 远小于产品总数 \(N\) 时,每次抽取后,总体中的不合格品率 \(p=M/N\) 改变甚微,所以不放回抽样可近似地看成放回抽样,这时超几何分布可用二项分布近似:
\[\frac{\left(\begin{array}{c} M \\ k \end{array}\right)\left(\begin{array}{c} N-M \\ n-k \end{array}\right)}{\left(\begin{array}{l} N \\ n \end{array}\right)} \cong\left(\begin{array}{l} n \\ k \end{array}\right) p^{k}(1-p)^{n-k} \]几何分布
在伯努利试验序列中,记每次试验中事件 \(A\) 发生的概率为 \(p\) ,如果 \(X\) 为事件 \(A\) 首次出现时的试验次数,则 \(X\) 的可能取值为 \(1 ,2,\cdots\),称 \(X\) 服从几何分布,记为 \(X\sim Ge(p)\),其分布列为
\[P(X=k)=(1-p)^{k-1} p, k=1,2, \cdots \]几何分布的数学期望和方差
设随机变量 \(X\) 服从几何分布 \(Ge(p)\),令 \(q=1-p\) ,利用逐项微分可得 \(X\) 的数学期望为
\[\begin{aligned} E(X) &=\sum_{k=1}^{\infty} k p q^{k-1}=p \sum_{k=1}^{\infty} k q^{k-1}=p \sum_{k=1}^{\infty} \frac{\mathrm{d} q^{k}}{\mathrm{~d} q} \\ &=p \frac{\mathrm{d}}{\mathrm{d} q}\left(\sum_{k=0}^{\infty} q^{k}\right)=p \frac{\mathrm{d}}{\mathrm{d} q}\left(\frac{1}{1-q}\right)=\frac{p}{(1-q)^{2}}=\frac{1}{p} \end{aligned} \]又因为
\[\begin{aligned} E\left(X^{2}\right) &=\sum_{k=1}^{\infty} k^{2} p q^{k-1}=p\left[\sum_{k=1}^{\infty} k(k-1) q^{k-1}+\sum_{k=1}^{\infty} k q^{k-1}\right] \\ &=p q \sum_{k=1}^{\infty} k(k-1) q^{k-2}+\frac{1}{p}=p q \sum_{k=1}^{\infty} \frac{\mathrm{d}^{2}}{\mathrm{~d} q^{2}} q^{k}+\frac{1}{p} \\ &=p q \frac{\mathrm{d}^{2}}{\mathrm{~d} q^{2}}\left(\sum_{k=0}^{\infty} q^{k}\right)+\frac{1}{p}=p q \frac{\mathrm{d}^{2}}{\mathrm{~d} q^{2}}\left(\frac{1}{1-q}\right)+\frac{1}{p} \\ &=p q \frac{2}{(1-q)^{3}}+\frac{1}{p}=\frac{2 q}{p^{2}}+\frac{1}{p} \end{aligned} \]由此得 \(X\) 的方差为
\[\operatorname{Var}(X)=E\left(X^{2}\right)-[E(X)]^{2}=\frac{2 q}{p^{2}}+\frac{1}{p}-\frac{1}{p^{2}}=\frac{1-p}{p^{2}} \]几何分布的无记忆性
设 \(X\sim Ge(p)\) ,则对任意正整数 \(m\) 与 \(n\) 有
\[P(X>m+n \mid X>m)=P(X>n) \]在证明之前先解释上述概率等式的含义.在一列伯努利试验序列中,若首次成功 \((A)\) 出现的试验次数 \(X\) 服从几何分布,则事件\(\{X>m\}\) 表示前 \(m\) 次试验中 \(A\) 没有出现.假如在接下去的 \(n\) 次试验中 \(A\) 仍未出现,这个事件记为 \(\{X>m+n\}\).这个定理表明:在前 \(m\) 次试验中 \(A\) 没有出现的条件下,则在接下去的 \(n\) 次试验中 \(A\) 仍未出现的概率只与 \(n\) 有关,而与以前的 \(m\) 次试验无关,似乎忘记了前 \(m\) 次试验结果,这就是无记忆性.
证明: 因为
\[P(X>n)=\sum_{k=n+1}^{\infty}(1-p)^{k-1} p=\frac{p(1-p)^{n}}{1-(1-p)}=(1-p)^{n} \]所以对任意正整数 \(m\) 与 \(n\) , 条件概率
\[\begin{align*} P(X>m+n \mid X>m)&=\frac{P(X>m+n)}{P(X>m)}=\frac{(1-p)^{m+n}}{(1-p)^{m}}\\ &=(1-p)^n=P(X>n) \end{align*} \]即证.
负二项分布
作为几何分布的一种延伸,我们注意下面的负二项分布,亦称巴斯卡分布:在伯努利试验序列中,记每次试验中事件 \(A\) 发生的概率为 \(p\) ,如果 \(X\) 为事件 \(A\) 第 \(r\) 次出现时的试验次数,则 \(X\) 的可能取值为 \(r,r+1,\cdots ,r+m, \cdots\) .称 \(X\) 服从负二项分布或巴斯卡分布,其分布列为
\[P(X=k)=\left(\begin{array}{l} k-1 \\ r-1 \end{array}\right) p^{r}(1-p)^{k-r}, k=r, r+1, \cdots \]记为 \(X\sim Nb(r,p)\) . 当 \(r=1\) 时,即为几何分布.
负二项分布的数学期望和方差
\[\begin{align} E(X) &=\sum_{k=r}^\infty k \left( \begin{matrix} k-1\\r-1 \end{matrix} \right) p^r(1-p)^{k-r} \\ &=\frac{r}{p}\sum_{k=r}^\infty \left( \begin{matrix} k\\r \end{matrix} \right) p^{r+1}(1-p)^{k-r}\\ &=\frac{r}{p} \end{align} \] \[\begin{align} E(X^2)&= \frac{r}{p}\sum_{k=r}^\infty k \left( \begin{matrix} k\\r \end{matrix} \right) p^{r+1}(1-p)^{k-r} \\&=\frac{r}{p} \left[\sum_{k=r}^\infty (k+1) \left( \begin{matrix} k\\r \end{matrix} \right) p^{r+1}(1-p)^{k-r} \\-\sum_{k=r}^\infty \left( \begin{matrix} k\\r \end{matrix} \right) p^{r+1}(1-p)^{k-r} \right] \\&=\frac{r}{p}\left(\frac{r+1}{p}-1 \right) \\&=\frac{r(r-p+1)}{p^2} \end{align} \]因此
\[\operatorname{Var}(X)=E(X^2)-[E(X)]^2=\frac{r(1-p)}{p^2} \]