在样本方差计算式中,我们使用Xbar代替随机变量均值μ。
容易证明(参考随便一本会讲述样本方差的教材),只要Xbar不等于μ,sigma(Xi-Xbar)2必定小于sigma(Xi-μ)2。
然而,要想让样本均值严格等于μ几乎是不可能的,于是我们将分母也缩小一点点。
然而为嘛是n-1而不是n-2甚至是n-3?
嗯,xbar是从Xi计算出来的,所以n个Xi中,只有n-1个是不相关的(这里可以顺便回忆一下万恶的线代)。
(以下抄袭自zhihu)
统计学中各种1/(n-k),n-k对应于公式中独立信息的数目,数学上说就是空间的维度,比如样本方差这个公式,样本均值的存在使得独立信息数目为n-1。
(好,现在回来)
换个角度,若我们只抽样一次,那么若分母为n,样本方差将是0,这个显然不对头。
(再次引用zhihu)
对于方差的例子,加一减一没啥区别。数据量够大时大家一样,数据量小时,做统计分析也没啥意义,Larry Wasserman原话。
(再次回来)
别问我Larry Wasserman是谁,我不认识他。