商务统计学(五)
《商务统计学》第七版
作者:戴维·莱文等,审校:胡大源
“先把书读厚,再把书读薄” --- 华罗庚
目录
第八章 置信区间的估计
在上一章学习“均值的抽样分布”和“比率的抽样分布”时,我们采用了演绎推理的方法。而这一章我们需要“归纳整理”的方法,归纳整理是让你从(关于样本的)具体情况出发,然后得出具有普遍意义的结论。虽然不能保证结论是绝对正确的,但在谨慎选取特定样本和严格使用正确方法后,将会得出有实际意义的结论。
一般我们使用点估计或者区间估计来推断总体参数
- 点估计,使用单个样本的统计量来估计总体参数的方法
- 置信区间估计,是在点估计的基础上,向两边延伸形成一个区间(interval)。构建置信区间可以帮助我们计算总体的某个参数落在特定区间内的概率
8.1 对总体均值的置信区间估计(已知总体标准差)
这本书的p231~p236凭借结合案例的推演讲解,深深地触动了我,证明了它确实是一本好书
置信区间 what&how
\[本节讨论的“对总体均值的置信区间的估计”的前提是,我们所关心的变量X的总体呈正态分布,且已知总体的标准差\sigma\\ 在总体不是正太分布的情况下,样本\bar{X}的分布也就不服从正太分布了,此时本节讲的置信区间也就不再适用\\ 但由于在n较大的情况下(传统来说大于30),中心极限定理可以保证均值抽样分布对应的X(\bar{X})接近正态分布\\ 因此,只要样本的数量足够大,总体的分布偏度不是非常严重,而且已知总体标准差\sigma\\ 就可以适用本节中讨论的置信区间来估计总体均值 \]what
\[总体均值的置信区间(\sigma已知):\\ \bar{X}-Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}}\\ Z_{\frac{\alpha}{2}}是在标准正态分布曲线下,上限临界值之外的概率为\frac{\alpha}{2}时(也就是累计面积为1-\frac{\alpha}{2})时的Z值 \]-
临界值
\[这里的Z_{\frac{\sigma}{2}}是构建置信区间所需的临界值,构建一个置信水平为95\%的置信区间时,\sigma=0.05\\ 因为在区间外的5\%是被分配在正态分布左右两侧的,因此从负无穷到上限临界值的累计面积就为Z_{0.95+\frac{0.05}{2}}=Z_{0.975}=1.96\\ 另有常见常用的置信水平为99\%的置信区间的Z值为Z_{0.995}=2.58\\ \] -
置信区间的大小
置信区间的含义是:(例如置信区间为95%)
\[(通过该组样本的数据)我有95\%的信心相信,总体均值在\\ \bar{X}-Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X}+Z_{\frac{\alpha}{2}}\frac{\sigma}{\sqrt{n}} 之间\\ \]那么为什么不将置信水平设置为100%呢?
因为“置信区间的加宽会使置信区间的精准度下降”,通俗来讲,根据公式就可以的得出,当置信区间越大Z值就越大,那么最后求得的区间就更宽了,这就会导致真正的总体均值虽然落在置信区间的可能性变大了(就是置信水平),但是范围一大我们自然就更加不好判断总体均值的具体值范围,这就是精准度下降。
how
-
置信区间的由来
原书P232页,讲解很精彩且易懂,不再赘述
-
怎样才能知道总体标准差?
如果要使用置信区间的公式就必须知道总体的标准差。然而,要知道总体的标准差就意味着我们已经知道总体中的每一个值。但这样我们可以直接求的总体均值,而不需要在通过统计学的归纳推理来估计总体均值。
换句话说,如果已经知道总体标准差,那么就完全没必要使用公式来构建总体均值的置信区间。
其实通过已知标准差来理解置信区间时非常有效的途径,下一节将学习在标准差未知的情况下构建置信区间需要使用的另一种分布。
此书之精妙就在此处,不但通过大量例子引导读者理解概念,还告诉读者算法的来龙去脉,娓娓道来,诲人不倦,赞
8.2 对总体均值的置信区间的估计(标准差未知)
t分布(学生t分布)
\[如果变量X服从正态分布,那么以下统计量服从*度为n-1的t分布\\ t=\frac{\bar{X}-\mu}{\frac{S}{\sqrt{n}}}\\ 这个表达式与均值抽样分布的Z值计算公式是一样的,只是因为不知道\sigma,所以用S替换了\sigma\\ 而S是指样本统计量 \]t分布的特性
- 从图形上来看,t分布和标准正态分布曲线非常接近 --- 两者都呈钟型且均值和中位数都为0
- 但因为标准差未知,所以要用S来估计标准差(\sigma),因此t值的波动要大于Z值的波动,t分布曲线在两个尾部的面积大于标准正态分布曲线,而中心部分有小于标准正态分布曲线
- 随着样本容量和*度的增大,t分布就会逐渐接近正态分布。一直增大最终就会重叠在一起。
- 同样地,随着样本容量的增大,总体标准差的估计值S也会越来越精准,一般来讲,当样本容量大于120的时,S就足够精确,t值与Z值的差别也就变得微不足道了
- 当然,t分布的前提依旧是要求所研究的随记变量X服从正态分布。不过,就像老生常谈的那样,实践中只要样本容量足够大,且总体分布不是非常偏斜,那么在总体标准差未知的时候,也可以采用t分布估算棕瓶体均值。
*度的概念
-
\[要计算S^2,首先要知道\bar{X},此时样本容量为n的样本中,只有n-1个观测值是可以自有变动的,这意味着一共有n-1个*度
\]
也就是说,比如,样本中有5个观测值,已知它们的均值是20 ,那么所有数据的总和就为100,。我们只要知道其中的4个数就可以确定唯一的第五个数。这就是*度 --- 至少知道多少个数据的值才能确定样本中所有数据的取值。
总体均值的置信区间(总体标准差未知)
- \[\bar{X}-t_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}} \leq \mu \leq \bar{X}+t_{\frac{\alpha}{2}}\frac{S}{\sqrt{n}}\\ 其中\bar{X}为样本均值,S为样本标准差,n为样本容量 \]
-
使用方式:(假设95%的置信水平,样本容量为100)
- 代入样本均值、样本标准差、样本容量
- (对于95%的置信水平)在t分布表中线找到*度为99的一行,然后选择累计概率为(0.95+0.05/2=0.975)的一列,得出t值为1.9842
- 然后,可以得出“有95%的把握(置信水平)认为总体均值在xxx~yyy之间”。(但需要注意的是,通过一组样本,永远真正确定这一结论是否真的包含总体均值,只能“有多少把握”)
8.3 比率的置信区间估计
总体比率的置信区间的估计
\[p-Z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}} \leq \pi \leq p+Z_{\frac{\alpha}{2}}\sqrt{\frac{p(1-p)}{n}}\\ p为样本比率,P=\frac{x}{n}=\frac{具有感兴趣的数据量}{样本容量},\pi为总体比率\\ \]- 使用上述公式构建置信区间时样本容量必须足够大使得能够保证X和n-X均大于5。满足时,也可以使用正态分布近似计算二项分布问题
- 但是当不满足时,就应该采用二项分布表达式计算,而不应该采用上述公式