离群点、孤立点、异常点有什么区别吗?

  统计/机器学习 无监督学习 数据预处理    浏览次数:1194        分享
0

平时提到的离群点、孤立点、异常点有什么区别吗?是一回事吗?


 

ggg818   2018-04-26 09:39



   3个回答 
8

离群点(outlier)和异常点(anomaly)其实都混着用的,我感觉大同小异。如果真要纠结离群点和异常点的区别的话,我可以说说我的理解。

离群点一般是指远离其他点的,比如距离均值超过3个标准差。比如说,全班考试平均分20,标准差是10,你考了100分,你就离群了。从假设检验的角度来说,给定了一个总体的分布,p值很小很小的点就是离群的。

异常点比离群点更广泛些。除了离群,有差错的点也算是异常。比如说,全班考试平均分20,标准差是10,你考了100分,你就异常(离群)了。如果你考了-5分,尽管在3个标准差之内,但是负数明显是异常的。如果你考了31.415926分,也异常了,因为分数一般是整数或者0.5。

异常点还可以针对分类变量,比如有个变量是城市名称,上海、北京、深圳,如果这里还出现了“广东”,这就不对了,因为广东并不是城市的名字。


SofaSofa数据科学社区DS面试题库 DS面经

Josh_Josh   2018-05-02 23:27

4

基本上就是同义词,Outlier Analysis这本书开头就写了

Outliers(离群点、孤立点) are also referred to as abnormalities, discordants, deviants, or anomalies(异常点) in the data mining and statistics literature.

感觉没必要深究。

SofaSofa数据科学社区DS面试题库 DS面经

木子周   2018-05-12 22:11

2

我觉得就是可以理解为一个意思吧,不然有点咬文嚼字了

SofaSofa数据科学社区DS面试题库 DS面经

whanq   2019-01-23 15:29



  相关主题

关于autoencoder做无监督学习的验证问题   1回答

谱聚类中的相似矩阵是怎么定义的?   1回答

软聚类,硬聚类?   1回答

什么是K-Modes(K众数)聚类法?   1回答

聚类问题可以用stacking model的方法吗?   2回答

层次聚类里的linkage是什么意思?   2回答

层次聚类中的Ward's method是什么意思   1回答

学习auto-encoder, 自己写的demo, 关于拟合的问题,帮忙看下loss-acc图?   2回答

auto-encoder异常检测的问题,无标签情况下怎么进行预测?   2回答

python中实现k-modes的包   1回答

kNN用来做异常点检测?   3回答

什么时候需要对y或者特征进行对数变换?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!