离群点、孤立点、异常点有什么区别吗?

  统计/机器学习 无监督学习 数据预处理    浏览次数: 344
0

平时提到的离群点、孤立点、异常点有什么区别吗?是一回事吗?


 

ggg818   2018-04-26 09:39



   2个回答 
5

离群点(outlier)和异常点(anomaly)其实都混着用的,我感觉大同小异。如果真要纠结离群点和异常点的区别的话,我可以说说我的理解。

离群点一般是指远离其他点的,比如距离均值超过3个标准差。比如说,全班考试平均分20,标准差是10,你考了100分,你就离群了。从假设检验的角度来说,给定了一个总体的分布,p值很小很小的点就是离群的。

异常点比离群点更广泛些。除了离群,有差错的点也算是异常。比如说,全班考试平均分20,标准差是10,你考了100分,你就异常(离群)了。如果你考了-5分,尽管在3个标准差之内,但是负数明显是异常的。如果你考了31.415926分,也异常了,因为分数一般是整数或者0.5。

异常点还可以针对分类变量,比如有个变量是城市名称,上海、北京、深圳,如果这里还出现了“广东”,这就不对了,因为广东并不是城市的名字。


Josh_Josh   2018-05-02 23:27

2

基本上就是同义词,Outlier Analysis这本书开头就写了

Outliers(离群点、孤立点) are also referred to as abnormalities, discordants, deviants, or anomalies(异常点) in the data mining and statistics literature.

感觉没必要深究。

木子周   2018-05-12 22:11



  相关主题

进行K-Means聚类前,需要对数据做怎样的预处理?   1回答

特征归一化对K Means有影响吗?   3回答

Jenks和K Means在一维数据时,是不是等价的?   2回答

关于小批量K均值(mini-batch K Means)的问题   2回答

k-medoids和k-means区别   3回答

如何用K Means做异常点检测?   1回答

K-MEANS初始点选择的问题   2回答

软聚类,硬聚类?   1回答

层次聚类里的linkage是什么意思?   2回答

聚类问题可以用stacking model的方法吗?   2回答

K Means初始点必须是样本中的点吗   2回答

谱聚类中的相似矩阵是怎么定义的?   0回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!