样本方差：为嘛分母是n-1

2024-01-30 23:11:04

在样本方差计算式中，我们使用Xbar代替随机变量均值μ。

容易证明（参考随便一本会讲述样本方差的教材），只要Xbar不等于μ，sigma(X_i-Xbar)²必定小于sigma(X_i-μ)²。

然而，要想让样本均值严格等于μ几乎是不可能的，于是我们将分母也缩小一点点。

然而为嘛是n-1而不是n-2甚至是n-3?

嗯，xbar是从X_i计算出来的，所以n个X_i中，只有n-1个是不相关的（这里可以顺便回忆一下万恶的线代）。

（以下抄袭自zhihu）

统计学中各种1/(n-k)，n-k对应于公式中独立信息的数目，数学上说就是空间的维度，比如样本方差这个公式，样本均值的存在使得独立信息数目为n-1。

（好，现在回来）

换个角度，若我们只抽样一次，那么若分母为n，样本方差将是0，这个显然不对头。

（再次引用zhihu）

对于方差的例子，加一减一没啥区别。数据量够大时大家一样，数据量小时，做统计分析也没啥意义，Larry Wasserman原话。

（再次回来）

别问我Larry Wasserman是谁，我不认识他。

码农公寓