如果数据不是正态分布,能用3sigma原则剔除异常值吗?

  统计/机器学习 概率分布 无监督学习 数据预处理    浏览次数:2666        分享
0

如果数据不是正态分布,能用3sigma原则剔除异常值吗?

 

ysz_2020   2020-02-29 14:57



   3个回答 
6

如果不是正态分布,3$\sigma$原则不一定适用,但是如果是近似正态分布,应该问题不大。

如果不知道数据分布,可以用中位数+3IQR的方法。也可以用box-cox把数据转成近似正态分布,然后再用3$\sigma$的方法。

SofaSofa数据科学社区DS面试题库 DS面经

黑泽先生   2020-03-01 17:58

谢谢 - ysz_2020   2020-03-04 00:43
2

具体分析。3sigma的原理是正态分布时,3sigma能覆盖超过99%的数据。对于别的分布,3sigma的覆盖率会变化。比如log-normal这类的长尾分布,3sigma方法会把太多数据分类为异常。

你可以做实验,比如对N个数据算3sigma,再看异常个数是否能接受。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2020-02-29 17:46

谢谢 - ysz_2020   2020-03-04 00:43
1

如果数据不是正态分布,直接用3sigma,后果可能是你删除了太多数据,也可能你什么数据都删不掉。

我觉得最重要的是要结合业务逻辑,如果符合业务逻辑,即使是超出这个范围的数值也不一定非要剔除。

SofaSofa数据科学社区DS面试题库 DS面经

AlphaCat   2020-04-06 14:46



  相关主题

关于高斯混合模型的分布的疑问   3回答

高斯混合模型对初始值敏感吗?   1回答

高斯混合模型里的隐变量是什么变量?   3回答

离群点、孤立点、异常点有什么区别吗?   3回答

用高斯混合模型(GMM)做聚类时,怎么确定component的个数?   2回答

python中实现box-cox变换的函数?   1回答

特征是否也需要Box Cox变换?   1回答

关于autoencoder做无监督学习的验证问题   1回答

强大数定律和弱大数定律有什么区别?   1回答

log-normal分布实际有什么用?   3回答

怎么判断一个数据集是双峰分布的?   1回答

X,Y 独立并且,X~U(0,2)以及Y∼U(1,3)。求max(X,Y) 的期望。   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!