为什么样本方差是除以n-1

  统计/机器学习 描述性统计    浏览次数: 406
2

为什么样本方差是除以n-1,而不是n?

 

robert   2018-06-24 10:40



   3个回答 
7

首先,我们先看看方差的计算公式

$$\text{Var}(X) = \frac{\sum_{i=1}^n(X_i-\mu)^2}{n}$$

其中$\mu$是这个总体的真实均值。但是往往$\mu$是未知的,所以我们用样本均值$\bar X$来代替$\mu$,也就是

$$S_* = \frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}$$

那么这个$S_*$是正确的估计吗?我们可以计算$S_*$的期望来对比一下$\text{Var}(X)$。

$$\begin{eqnarray}\mathbb{E}(S_*)&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu + \mu -\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu)^2}{n}+\frac{\sum_{i=1}^n2(X_i-\mu)(\mu - \bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber \\&=&\text{Var}(X) + \mathbb{E}\left(\frac{\sum_{i=1}^n2(X_i-\mu)(\mu -\bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber\\&=&\text{Var}(X) + \mathbb{E}\left(-2(\bar X-\mu)^2+(\bar X -\mu)^2\right)\nonumber \\&=&\text{Var}(X) -\mathbb{E}\left((\bar X-\mu)^2\right)\nonumber \\&=&\text{Var}(X) - \text{Var}(\bar X)\nonumber \\ &=&\text{Var}(X) - \frac{1}{n}\text{Var}(X)\nonumber \\ &=&\frac{n-1}{n}\text{Var}(X)\end{eqnarray}$$

所以

$$\text{Var}(X) = \frac{n}{n-1}\mathbb{E}(S_*)=\frac{\sum_{i=1}^n(X_i-\bar X)}{n-1}$$

kidd23   2018-06-24 13:19

4

在kidd23公式中$E(S_\star)=Var(X)-Var(\bar{X})$,也就是样本方差$E(S_\star)$等于总体方差$Var(X)$减样本均值的方差$Var(\bar{X})$。这公式说的是:求总体方差时默认条件是知道总体均值$\mu$。如果用样本均值去估计总体均值,对总体方差的估计是有偏差的,偏差是样本均值的方差$Var(\bar{X})$。需要做Bessel's correction去修正偏差,让偏差的期望等于0。

Zealing   2018-06-27 01:36

3

用样本均值代替总体均值,自由度会减1,所以分母是n-1。


abuu   2018-06-26 12:35



  相关主题

Median Absolute Deviation的定义是什么?   1回答

标准误和标准差有什么区别?   1回答

一个连续变量和一个二元变量的相关系数怎么求?   1回答

有序分类变量的相关系数   2回答

估计标准差的标准差?   1回答

中位数的置信区间有什么办法求解?   3回答

python中百分位数的逆运算   1回答

如何用python计算均值的置信区间?   1回答

用python计算协方差   1回答

Python计算两个数组的相关系数   3回答

python里计算百分位数   2回答

如何向没有统计知识背景的人解释“什么是标准差”?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!