为什么样本方差是除以n-1,而不是n?
4个回答
首先,我们先看看方差的计算公式
$$\text{Var}(X) = \frac{\sum_{i=1}^n(X_i-\mu)^2}{n}$$
其中$\mu$是这个总体的真实均值。但是往往$\mu$是未知的,所以我们用样本均值$\bar X$来代替$\mu$,也就是
$$S_* = \frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}$$
那么这个$S_*$是正确的估计吗?我们可以计算$S_*$的期望来对比一下$\text{Var}(X)$。
$$\begin{eqnarray}\mathbb{E}(S_*)&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu + \mu -\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu)^2}{n}+\frac{\sum_{i=1}^n2(X_i-\mu)(\mu - \bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber \\&=&\text{Var}(X) + \mathbb{E}\left(\frac{\sum_{i=1}^n2(X_i-\mu)(\mu -\bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber\\&=&\text{Var}(X) + \mathbb{E}\left(-2(\bar X-\mu)^2+(\bar X -\mu)^2\right)\nonumber \\&=&\text{Var}(X) -\mathbb{E}\left((\bar X-\mu)^2\right)\nonumber \\&=&\text{Var}(X) - \text{Var}(\bar X)\nonumber \\ &=&\text{Var}(X) - \frac{1}{n}\text{Var}(X)\nonumber \\ &=&\frac{n-1}{n}\text{Var}(X)\end{eqnarray}$$
所以
$$\text{Var}(X) = \frac{n}{n-1}\mathbb{E}(S_*)=\frac{\sum_{i=1}^n(X_i-\bar X)}{n-1}$$
SofaSofa数据科学社区DS面试题库 DS面经在kidd23公式中$E(S_\star)=Var(X)-Var(\bar{X})$,也就是样本方差$E(S_\star)$等于总体方差$Var(X)$减样本均值的方差$Var(\bar{X})$。这公式说的是:求总体方差时默认条件是知道总体均值$\mu$。如果用样本均值去估计总体均值,对总体方差的估计是有偏差的,偏差是样本均值的方差$Var(\bar{X})$。需要做Bessel's correction去修正偏差,让偏差的期望等于0。
SofaSofa数据科学社区DS面试题库 DS面经