第七章 统计量及其分布
7.1 总体与样本
7.1.1 总体与个体
- 总体:具有一定共同属性的研究对象的全体;
- 个体:组成总体的每一个元素
在实际中我们主要关心的是:
研究对象的某一(或某几项)数量的指标 \(X=X(\omega)\),它是一个随机变量。
总体:随机变量(数量指标) \(X\) 的全体取值构成的集合。
总体的分布:随机变量 \(X\) 的分布。
7.1.2 样本值与样本
从一个总体 \(X\) 中,随机抽取 \(n\) 个个体(有放回的重复抽样):
\(x_1, x_2,...,x_n\) 是一次抽样观察(记录)的结果,称 \(x_1, x_2,...,x_n\) 为总体 \(X\) 的一组样本观察值,简称样本值。
由于抽样的随机性,每次抽样结果是变化的。引入随机变量 \(X_1, X_2, ...,X_n\),每次抽样结果看成是随机变量的取值。
称 \(X_1, X_2, ...,X_n\) 为来自于总体 \(X\) 的样本容量为 \(n\) 的样本,\(x_1, x_2,...,x_n\) 是样本 \(X_1, X_2, ...,X_n\) 的一组观察值,称为样本值。
- 总体就是一个随机变量 \(X\)
- 样本就是 \(n\) 个相互独立的 \(X\) 同分布的随机变量 \(X_1,X_2,...,X_n\)
按机会均等的原则,从总体中选取一些个体进行实验或观察的过程,称为随机抽样。
获得简单随机样本的方法是简单随机抽样。
7.1.3 样本分布
若总体 \(X\) 具有分布函数 \(F(x)\),设 \(X_1, X_2, ...,X_n\) 为来自于总体 \(X\) 的样本,则 \(X_1, X_2, ...,X_n\) 相互独立,且 \(X_i\) 的分布函数:
\[F_{X_i}(x_i)=P\{X_i\leq x_i\}=P\{X\leq x_i\}=F(x_i) \]\((X_1,X_2,...,X_n)\) 的分布函数称为样本分布,即
\[F(x_1,x_2,...,x_n)=\prod\limits^n_{i = 1}F(X_i) \]7.2 样本矩和统计量
定义
设 \(X_1, X_2, ...,X_n\) 为总体 \(X\) 的一个样本, \(g(x_1,x_2,...,x_n)\) 为一个不含总体未知参数的连续函数,则称 \(g(X_1,X_2,...,X_n)\) 为样本的一个统计量。
7.2.1 样本矩(样本的矩统计量)
设 \(X_1, X_2, ...,X_n\) 为来自于总体 \(X\) 的一个样本,称
-
样本均值:\(\overline{X}=\dfrac{1}{n}\sum\limits^n_{i=1}X_i\)
-
样本方差:\(S^2=\dfrac{1}{n-1}\sum\limits^n_{i=1}(X_i-\overline{X})^2\)
-
\(k\) 阶原点矩:\(A_k=\dfrac{1}{n}\sum\limits^n_{i=1}X_i^k\)
-
\(k\) 阶中心距:\(B_k=\dfrac{1}{n}\sum\limits^n_{i=1}(X_i-\overline{X})^k\)
样本矩都是随机变量。
如果 \(x_1, x_2,...,x_n\) 是样本 \(X_1, X_2, ...,X_n\) 的一组观察值,则:
\[\begin{aligned} &\overline{x}=\dfrac{1}{n}\sum\limits^n_{i=1}x_i&&s^2=\dfrac{1}{n-1}\sum\limits^n_{i=1}(x_i-\overline{x})^2\\ &a_k=\dfrac{1}{n}\sum\limits^n_{i=1}x_i^k&&b_k=\dfrac{1}{n}\sum\limits^n_{i=1}(x_i-\overline{x})^k \end{aligned} \]分别是 \(\overline{X},S^2,A_k,B_k\) 的观察值。
7.2.2 顺序统计量与经验分布函数
设 \(X_1, X_2, ...,X_n\) 为来自于总体 \(X\) 的一个样本,\(x_1, x_2,...,x_n\) (可以有相等的)是样本观察值,将观察值按大小次序排列,得到:
\[x_1^*\leq x_2^*\leq...\leq x_n^* \]规定 \(X_i^*\) 的取值为 \(x_i^*\),得到 \(X_1^*,X_2^*,...,X_n^*\) 称为 \(X_1,X_2,...,X_n\) 的一组顺序统计量。
\(X_1^*\) 样本极大值,\(X_n^*\) 样本极小值
记函数:
\[F_n(x)=\left\{\begin{aligned} &0&&,x<x_1^*\\ &\dfrac{1}{n}&&,x_1^*\leq x\leq x_2^*\\ &\dfrac{k}{n}&&,x_k^*\leq x\leq x_{k+1}^*(k=1,...,n-1)\\ &1&&,x\geq x_n^* \end{aligned}\right. \]\(F_n(x)\) 是一单调不减,右连续函数,且满足 \(F_n(-\infty)=0\) 和 \(F_n(+\infty)=1\),由此可见,\(F_n(x)\) 是一个分布函数,称它为总体 \(X\) 的经验分布函数。
\(F_n(x)\) 可作为 \(X\) 的未知分布函数 \(F(x)\) 的一个近似,\(n\) 越大,近似程度越好。
7.3 统计量的分布
7.3.1 正态总体的样本的线性函数的分布
设总体 \(X\sim N(\mu,\sigma^2)\),\(X_1, X_2, ...,X_n\) 是来自于 \(X\) 的一个样本,则样本的线性函数:
\[Y=a_1X_1+a_2X_2+\cdots+a_nX_n+b\\ Y\sim N(EY,DY)\\ EY=\mu\sum\limits^n_{i=1}a_i+b\\ DY=\sigma^2\sum\limits^n_{i=1}a_i^2 \]特别地,当 \(a_i=\dfrac{1}{n},b=0\) 时,\(Y=\overline{X}=\dfrac{1}{n}\sum\limits_{i=1}^nX_i\)
\[\overline{X}\sim N(\mu,\dfrac{\sigma^2}{n}) \]均值与总体均值相等,方差等于总体方差的 \(\dfrac{1}{n}\),\(n\) 越大,越向总体均值 \(\mu\) 集中。
常用结论:
\[\overline{X}\sim N(\mu,\dfrac{\sigma^2}{n})\\ \cfrac{\overline{X}-\mu}{\cfrac{\sigma}{\sqrt{n}}}\sim N(0,1)\\ \dfrac{X_i-\mu}{\sigma}\sim N(0,1) \]7.3.2 \(\chi^2(n)\) 分布
定义
设 \(X_1, X_2, ...,X_n\) 相互独立且都服从标准正态分布 \(N(0,1)\),则 \(\chi^2=\sum\limits^n_{i=1}X_i^2\)。
称 \(\chi^2\) 服从*度为 \(n\) 的 \(\chi^2\) 分布,记为 \(\chi^2\sim\chi^2(n)\)
\(\chi^2\) 的(下侧) \(\alpha\) 分位点:
对于给定的正数 \(\alpha\space(0<\alpha<1)\) ,使满足\(P\{\chi^2\leq \chi^2_\alpha(n)\}=a\) 的点 \(\chi^2_\alpha(n)\) 称为 \(\chi^2\) 分布的(下侧)\(\alpha\) 分位点。
性质
定理1:
若 \(X\sim\chi^2(n)\),则 \(EX=n,DX=2n\)。
定理2:
若 \(X_1\sim\chi^2(n_1),\quad X_2\sim\chi^2(n_2)\),且 \(X_1\) 与 \(X_2\) 相互独立,则 \(X_1 + X_2\sim \chi^2(n_1+n_2)\)
定理3:
设 \(X_1, X_2, ...,X_n\) 相互独立,且都服从 \(N\sim(\mu,\sigma^2)\),则:
- \(\overline{X}\) 与 \(S^2\) 相互独立
- \(\dfrac{n-1}{\sigma^2}S^2\sim \chi^2(n-1)\quad =\dfrac{1}{\sigma^2}\sum\limits^n_{i=1}(X_i-\overline{X})^2\)
其中 \(\overline{X}=\dfrac{1}{n}\sum\limits^b_{i=1}X_i,\quad S^2=\dfrac{1}{n-1}\sum\limits_{i=1}^n(X_i-\overline{X})^2\)
7.3.3 \(t\) 分布
定义
设 \(U\sim N(0,1),\quad V\sim \chi^2(n)\),且 \(U\) 与 \(V\) 相互独立,随机变量 \(T=\dfrac{U}{\sqrt{V/n}}\) ,称 \(T\) 服从*度为 \(n\) 的 \(t\) 分布,记作\(T\sim t(n)\)
\(t\) 分布的密度函数为偶函数。
\(t\) 分布的(下侧)\(\alpha\) 分位点:
对于给定的正数 \(\alpha\space(0<\alpha<1)\),使满足 \(P\{T\leq t_\alpha(n)\}\) 的点 \(t_\alpha(n)\) 为 \(t\) 分布的(下侧)\(\alpha\) 分位点。
\(t\) 分布的(双侧)\(\alpha\) 分位点:
\[P\{|T|>t_{1-\frac{\alpha}{2}}\}=\alpha \]定理4:
设 \(X_1, X_2, ...,X_n\) 相互独立,且都服从 \(N(\mu,\sigma^2)\),则
\[\cfrac{\overline{X}-\mu}{\cfrac{S}{\sqrt{n}}}=\dfrac{(\overline{X}-\mu)\sqrt{n}}{S}\sim t(n-1) \]定理5:
设 \(X_1, X_2, ...,X_m\) 和 \(Y_1,Y_2,...,Y_n\) 分别是从正态分布总体 \(N(\mu_1,\sigma^2)\) 和 \(N(\mu_2,\sigma^2)\) 中所抽取的独立样本,则
\[T=\dfrac{(\overline{X}-\overline{Y})-(\mu_1-\mu_2)}{\sqrt{(m-1)S_1^2+(n-1)S_2^2}}\cdot \sqrt{\dfrac{mn(m+n-2)}{m+n}}\sim t(m+n-2) \]7.3.4 \(F\) 分布
设 \(X\sim \chi^2(n_1),Y\sim \chi^2(n_2)\),且 \(X\) 与 \(Y\) 相互独立,随机变量 \(F=\dfrac{X/n_1}{Y/n_2}\)
称 \(F\) 服从*度为 \((n_1,n_2)\) 的 \(F\) 分布,记作 \(F\sim F(n_1,n_2)\)
\(F\) 的(下侧)\(\alpha\) 分位点:
对于给定的正数 \(\alpha\space(0<\alpha<1)\),使满足 \(P\{F\leq F_\alpha(n)\}\) 的点 \(F_\alpha(n)\) 为 \(F\) 分布的(下侧)\(\alpha\) 分位点。
\[F_{1-\alpha}(n_1,n_2)=\dfrac{1}{F_\alpha(n_2,n_1)} \]