为什么样本方差是除以n-1

  统计/机器学习 描述性统计    浏览次数:6844        分享
6

为什么样本方差是除以n-1,而不是n?

 

robertt   2018-06-24 10:40



   4个回答 
19

首先,我们先看看方差的计算公式

$$\text{Var}(X) = \frac{\sum_{i=1}^n(X_i-\mu)^2}{n}$$

其中$\mu$是这个总体的真实均值。但是往往$\mu$是未知的,所以我们用样本均值$\bar X$来代替$\mu$,也就是

$$S_* = \frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}$$

那么这个$S_*$是正确的估计吗?我们可以计算$S_*$的期望来对比一下$\text{Var}(X)$。

$$\begin{eqnarray}\mathbb{E}(S_*)&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu + \mu -\bar X)^2}{n}\right)\nonumber\\&=&\mathbb{E}\left(\frac{\sum_{i=1}^n(X_i-\mu)^2}{n}+\frac{\sum_{i=1}^n2(X_i-\mu)(\mu - \bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber \\&=&\text{Var}(X) + \mathbb{E}\left(\frac{\sum_{i=1}^n2(X_i-\mu)(\mu -\bar X)}{n}+\frac{\sum_{i=1}^n(\mu-\bar X)^2}{n}\right)\nonumber\\&=&\text{Var}(X) + \mathbb{E}\left(-2(\bar X-\mu)^2+(\bar X -\mu)^2\right)\nonumber \\&=&\text{Var}(X) -\mathbb{E}\left((\bar X-\mu)^2\right)\nonumber \\&=&\text{Var}(X) - \text{Var}(\bar X)\nonumber \\ &=&\text{Var}(X) - \frac{1}{n}\text{Var}(X)\nonumber \\ &=&\frac{n-1}{n}\text{Var}(X)\end{eqnarray}$$

所以

$$\text{Var}(X) = \frac{n}{n-1}\mathbb{E}(S_*)=\frac{\sum_{i=1}^n(X_i-\bar X)}{n-1}$$

SofaSofa数据科学社区DS面试题库 DS面经

kidd23   2018-06-24 13:19

赞赞赞 - Stitch潇   2020-06-08 17:53
学霸 - csdncsdn   2022-04-05 21:09
7

在kidd23公式中$E(S_\star)=Var(X)-Var(\bar{X})$,也就是样本方差$E(S_\star)$等于总体方差$Var(X)$减样本均值的方差$Var(\bar{X})$。这公式说的是:求总体方差时默认条件是知道总体均值$\mu$。如果用样本均值去估计总体均值,对总体方差的估计是有偏差的,偏差是样本均值的方差$Var(\bar{X})$。需要做Bessel's correction去修正偏差,让偏差的期望等于0。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-06-27 01:36

5

这个是Bessel's Correction

把总体方差的公式乘以$\frac{n}{n-1}$就得到了样本方差

SofaSofa数据科学社区DS面试题库 DS面经

jkm_pku   2018-09-26 00:18

4

用样本均值代替总体均值,自由度会减1,所以分母是n-1。


SofaSofa数据科学社区DS面试题库 DS面经

abuu   2018-06-26 12:35



  相关讨论

统计里的IQR是什么意思?

统计学中的自变量和因变量分别是什么意思?

Median Absolute Deviation的定义是什么?

估计标准差的标准差?

标准误和标准差有什么区别?

为什么说中位数比平均数更稳健?

python里怎么计算曼哈顿距离?

python里怎么计算两个向量的余弦相似?

python里计算百分位数

python中百分位数的逆运算

  随便看看

协方差矩阵一定是半正定的吗?

pip install opencv-python失败,难道非要编译安装?

关于方差膨胀因子(VIF)的问题

凸优化中局部最优解就是全局最优解吗?

分类变量,进行One hot编码,维度升高,如何处理?