为什么说中位数比平均数更稳健?

  统计/机器学习 描述性统计    浏览次数:4758        分享
1

为什么说中位数比平均数更稳健?

 

jialong   2019-05-30 12:51



   3个回答 
5

这里稳健(robust)的定义是数据点较少时,统计值(mean或meidan)的估计受outlier影响小。

用最大似然估计,mean unbiased estimator是求MSE(L2norm,Gaussian distribution)最小值。median-unbiased estimator是求absolute-deviation(L1norm, Laplace distribution)最小值。

$$\mu=\text{argmin}_{\mu}(\sum |x_i-\mu|_2^2)$$

$$median=\text{argmin}_{median}(\sum |x_i-median|)$$

可以看到求期望时,outlier影响是平方关系,而求中位数时,outlier影响是线性关系。所以中位数能减小outlier的影响。

--------------------------------------------------------------------

一个题外话,当数据点很多,且数据满足高斯分布,此时不需要考虑稳健问题,反而是sample mean比sample median更精确,估计的方差更小。参考这里最后公式。


其中$2m+1$是数据点个数。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-06-01 23:33

谢谢! - jialong   2019-06-03 20:31
4

有一簇点,但是其中有两个离群点(噪音)。你觉得下面的图里是红色(均值)更能代表这一簇的整体,还是黄色的点(中位数)更能代表整体?

显然中位数并没有收到噪音的影响。


SofaSofa数据科学社区DS面试题库 DS面经

xiaosu   2019-06-01 11:40

谢谢! - jialong   2019-06-03 20:31
1

中位数比平均数更稳健,所以我们有时候用MAE作为目标函数比MSE更稳健。因为MAE相当于是去拟合中位数,而MSE是去拟合平均数。

SofaSofa数据科学社区DS面试题库 DS面经

道画师   2019-06-12 20:37



  相关讨论

统计里的IQR是什么意思?

Median Absolute Deviation的定义是什么?

估计标准差的标准差?

为什么样本方差是除以n-1

统计学中的自变量和因变量分别是什么意思?

标准误和标准差有什么区别?

python中百分位数的逆运算

python里怎么计算两个向量的余弦相似?

python里计算百分位数

python里怎么计算曼哈顿距离?

  随便看看

KNN中K值的选择

在jupyter后台进程没有shutdown的notebook一直会占用内存吗?

分类变量,进行One hot编码,维度升高,如何处理?

请问在sklearn怎么在已有的模型的基础上训练新的数据?

自助法(bootstrap)的0.632是怎么来的?