为什么样本方差(sample variance)的分母是 n-1?

1. sample variance

今天看到一个很有趣的问题,也看到了两个不错的回答,感觉比较有趣,特此码住。

我们来简述一下问题:

 如果已知随机变量 为什么样本方差(sample variance)的分母是 n-1? 的期望为 为什么样本方差(sample variance)的分母是 n-1? ,那么可以如下计算方差 为什么样本方差(sample variance)的分母是 n-1? :

为什么样本方差(sample variance)的分母是 n-1?

 

 

 

上面的式子需要知道 为什么样本方差(sample variance)的分母是 n-1? 的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

所以实践中常常采样之后,用下面这个 为什么样本方差(sample variance)的分母是 n-1? 来近似 为什么样本方差(sample variance)的分母是 n-1? :

为什么样本方差(sample variance)的分母是 n-1?

 

 

 其实现实中,往往连 为什么样本方差(sample variance)的分母是 n-1? 的期望 为什么样本方差(sample variance)的分母是 n-1? 也不清楚,只知道样本的均值:

为什么样本方差(sample variance)的分母是 n-1?

 

 

 那么可以这么来计算 为什么样本方差(sample variance)的分母是 n-1? :

为什么样本方差(sample variance)的分母是 n-1?

 

 

 那这里就有两个问题:

 

 

  • 为什么可以用 为什么样本方差(sample variance)的分母是 n-1? 来近似 为什么样本方差(sample variance)的分母是 n-1? ?
  • 为什么使用 为什么样本方差(sample variance)的分母是 n-1? 替代 为什么样本方差(sample variance)的分母是 n-1? 之后,分母是 为什么样本方差(sample variance)的分母是 n-1? ?

推导过程:

为什么样本方差(sample variance)的分母是 n-1?

 

 

 其实我对以上的推导过程的最后一步存在疑惑,即为什么:

                               为什么样本方差(sample variance)的分母是 n-1?

其实我在想,这个问题又回到了分母为什么是n-1的问题。

 

 

那我们就来考虑:

其实在这最后一步时:

为什么样本方差(sample variance)的分母是 n-1?

 

 除非正好为什么样本方差(sample variance)的分母是 n-1?,否则我们一定有:

        为什么样本方差(sample variance)的分母是 n-1?

 

 

而不等式右边的那位才是的对方差的“正确”估计!
这个不等式说明了,为什么直接使用为什么样本方差(sample variance)的分母是 n-1?会导致对方差的低估。

那么,在不知道随机变量真实数学期望的前提下,如何“正确”的估计方差呢?答案是把上式中的分母为什么样本方差(sample variance)的分母是 n-1?换成为什么样本方差(sample variance)的分母是 n-1?,通过这种方法把原来的偏小的估计“放大”一点点,我们就能获得对方差的正确估计了:
                                         为什么样本方差(sample variance)的分母是 n-1?

至于为什么分母是为什么样本方差(sample variance)的分母是 n-1?而不是为什么样本方差(sample variance)的分母是 n-1?或者别的什么数,有机会要去看一下数学证明。

另外的理解是:*度降低了1

样本方差与样本均值,都是随机变量,都有自己的分布,也都可能有自己的期望与方差。取分母n-1,可使样本方差的期望等于总体方差,即这种定义的样本方差是总体方差的无偏估计。 简单理解,因为算方差用到了均值,所以*度就少了1,自然就是除以(n-1)了。

*度降低:

我们来看一个例子

假设随机抽出的样本里只有两个数 为什么样本方差(sample variance)的分母是 n-1?

如果这2个数是独立和随机抽取的,你就不能从x1猜出x2,例如我告诉你x1=10,请问x2等于多少?

你根本猜不出来,因为随机抽取让x2和x1之间没有关联。

 

但是,没想到的是,因为一个数据的存在,让这个随机取样产生了一个隐含的关联关系。

这个数就是计算样本方差 为什么样本方差(sample variance)的分母是 n-1?时,需要用到的样本平均值 为什么样本方差(sample variance)的分母是 n-1?,他的引入让随机抽取的独立性和*度减少了一点点。

因为样本平均值 为什么样本方差(sample variance)的分母是 n-1?引入了一些信息,让x1和x2之间不再是相互独立的关系了。

 

根据平均值公式

为什么样本方差(sample variance)的分母是 n-1?

只要知道了x1和为什么样本方差(sample variance)的分母是 n-1?,就可以计算出x2的值。

如果x1=10,为什么样本方差(sample variance)的分母是 n-1?=10,那x2=10

 

同样,知道了x2和为什么样本方差(sample variance)的分母是 n-1?,就可以计算出x1的值。

如果x2=10,为什么样本方差(sample variance)的分母是 n-1?=11,那x1=12

 

也就是说,出问题的并不是x1或者x2,这两个数本来好好的,互相独立的。出问题的是平均值为什么样本方差(sample variance)的分母是 n-1?,他引入的新信息,让样本数据之间的独立性减少了,关联性增加了。

或者还可以说,在平均值的介入下,x1和x2的*度降低了,原来是两个独立的数,现在只有一个独立了,另一个则不再*,好像有些人云亦云了。

 

同样的,对于更多的样本量:

如果样本是3个数 为什么样本方差(sample variance)的分母是 n-1?

则知道了x1,x2,就能通过为什么样本方差(sample variance)的分母是 n-1?,计算出x3,独立性或者说*度,就从3降到了2。

如果样本是4个数 为什么样本方差(sample variance)的分母是 n-1?

则知道了x1,x2,x3,就能通过为什么样本方差(sample variance)的分母是 n-1?,计算出x4,独立性或者说*度,就从4降到了3。

……

如果样本是n个数 为什么样本方差(sample variance)的分母是 n-1?

则知道了x1,x2,..., 为什么样本方差(sample variance)的分母是 n-1? ,就能通过为什么样本方差(sample variance)的分母是 n-1?,计算出 为什么样本方差(sample variance)的分母是 n-1? ,独立性或者说*度,就从n降到了n-1。

平均值为什么样本方差(sample variance)的分母是 n-1?让样本的独立性或*度减少了1,导致了样本出现了偏差。

这就是为什么样本方差的分母不是n,也不是n-2或n-3,而是n-1的原因。

 

 

 

参考链接:

https://www.cnblogs.com/yymn/p/4662447.html

https://www.matongxue.com/madocs/607.html

https://www.zhihu.com/question/20099757/answer/26586088

上一篇:高光谱图像处理---linearly constrained minimum variance线下约束最小方差(LCMV)


下一篇:如何在python中计算列表的方差?