平时提到的离群点、孤立点、异常点有什么区别吗?是一回事吗?
3个回答
离群点(outlier)和异常点(anomaly)其实都混着用的,我感觉大同小异。如果真要纠结离群点和异常点的区别的话,我可以说说我的理解。
离群点一般是指远离其他点的,比如距离均值超过3个标准差。比如说,全班考试平均分20,标准差是10,你考了100分,你就离群了。从假设检验的角度来说,给定了一个总体的分布,p值很小很小的点就是离群的。
异常点比离群点更广泛些。除了离群,有差错的点也算是异常。比如说,全班考试平均分20,标准差是10,你考了100分,你就异常(离群)了。如果你考了-5分,尽管在3个标准差之内,但是负数明显是异常的。如果你考了31.415926分,也异常了,因为分数一般是整数或者0.5。
异常点还可以针对分类变量,比如有个变量是城市名称,上海、北京、深圳,如果这里还出现了“广东”,这就不对了,因为广东并不是城市的名字。
基本上就是同义词,Outlier Analysis这本书开头就写了
Outliers(离群点、孤立点) are also referred to as abnormalities, discordants, deviants, or anomalies(异常点) in the data mining and statistics literature.
感觉没必要深究。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
软聚类,硬聚类?
1回答
聚类问题可以用stacking model的方法吗?
2回答
谱聚类中的相似矩阵是怎么定义的?
1回答
如果数据不是正态分布,能用3sigma原则剔除异常值吗?
3回答
auto-encoder异常检测的问题,无标签情况下怎么进行预测?
2回答
学习auto-encoder, 自己写的demo, 关于拟合的问题,帮忙看下loss-acc图?
2回答
kNN用来做异常点检测?
3回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!