离群点、孤立点、异常点有什么区别吗?

  统计/机器学习 无监督学习 数据预处理    浏览次数: 584
0

平时提到的离群点、孤立点、异常点有什么区别吗?是一回事吗?


 

ggg818   2018-04-26 09:39



   2个回答 
5

离群点(outlier)和异常点(anomaly)其实都混着用的,我感觉大同小异。如果真要纠结离群点和异常点的区别的话,我可以说说我的理解。

离群点一般是指远离其他点的,比如距离均值超过3个标准差。比如说,全班考试平均分20,标准差是10,你考了100分,你就离群了。从假设检验的角度来说,给定了一个总体的分布,p值很小很小的点就是离群的。

异常点比离群点更广泛些。除了离群,有差错的点也算是异常。比如说,全班考试平均分20,标准差是10,你考了100分,你就异常(离群)了。如果你考了-5分,尽管在3个标准差之内,但是负数明显是异常的。如果你考了31.415926分,也异常了,因为分数一般是整数或者0.5。

异常点还可以针对分类变量,比如有个变量是城市名称,上海、北京、深圳,如果这里还出现了“广东”,这就不对了,因为广东并不是城市的名字。


SofaSofa数据科学社区 DS面经 问答 实战

Josh_Josh   2018-05-02 23:27

2

基本上就是同义词,Outlier Analysis这本书开头就写了

Outliers(离群点、孤立点) are also referred to as abnormalities, discordants, deviants, or anomalies(异常点) in the data mining and statistics literature.

感觉没必要深究。

SofaSofa数据科学社区 DS面经 问答 实战

木子周   2018-05-12 22:11



  相关主题

层次聚类里的linkage是什么意思?   2回答

聚类问题可以用stacking model的方法吗?   2回答

什么是K-Modes(K众数)聚类法?   1回答

谱聚类中的相似矩阵是怎么定义的?   0回答

层次聚类中的Ward's method是什么意思   1回答

软聚类,硬聚类?   1回答

python中实现k-modes的包   1回答

有没有对聚类成员个数有限制的聚类算法?   2回答

一维的数据可以做聚类吗?   3回答

怎么评价一个聚类算法?   2回答

怎么理解聚类算法的评价指标Rand Index(RI)?   2回答

聚类问题需不需要分出测试集?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!