为什么说中位数比平均数更稳健?

  统计/机器学习 描述性统计    浏览次数:233        分享
0

为什么说中位数比平均数更稳健?

 

jialong   2019-05-30 12:51



   3个回答 
3

这里稳健(robust)的定义是数据点较少时,统计值(mean或meidan)的估计受outlier影响小。

用最大似然估计,mean unbiased estimator是求MSE(L2norm,Gaussian distribution)最小值。median-unbiased estimator是求absolute-deviation(L1norm, Laplace distribution)最小值。

$$\mu=\text{argmin}_{\mu}(\sum |x_i-\mu|_2^2)$$

$$median=\text{argmin}_{median}(\sum |x_i-median|)$$

可以看到求期望时,outlier影响是平方关系,而求中位数时,outlier影响是线性关系。所以中位数能减小outlier的影响。

--------------------------------------------------------------------

一个题外话,当数据点很多,且数据满足高斯分布,此时不需要考虑稳健问题,反而是sample mean比sample median更精确,估计的方差更小。参考这里最后公式。


其中$2m+1$是数据点个数。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-06-01 23:33

谢谢! - jialong   2019-06-03 20:31
2

有一簇点,但是其中有两个离群点(噪音)。你觉得下面的图里是红色(均值)更能代表这一簇的整体,还是黄色的点(中位数)更能代表整体?

显然中位数并没有收到噪音的影响。


SofaSofa数据科学社区DS面试题库 DS面经

xiaosu   2019-06-01 11:40

谢谢! - jialong   2019-06-03 20:31
1

中位数比平均数更稳健,所以我们有时候用MAE作为目标函数比MSE更稳健。因为MAE相当于是去拟合中位数,而MSE是去拟合平均数。

SofaSofa数据科学社区DS面试题库 DS面经

道画师   2019-06-12 20:37



  相关主题

Median Absolute Deviation的定义是什么?   1回答

统计学中的自变量和因变量分别是什么意思?   2回答

统计里的IQR是什么意思?   2回答

估计标准差的标准差?   1回答

标准误和标准差有什么区别?   1回答

为什么样本方差是除以n-1   4回答

python里怎么计算两个向量的余弦相似?   1回答

python里计算百分位数   2回答

python中百分位数的逆运算   1回答

EDA一般包括哪些步骤?   3回答

如何向没有统计知识背景的人解释“什么是标准差”?   1回答

线性回归的容忍度Tolerance是什么意思?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!