特征归一化对K Means有影响吗?

  统计/机器学习 无监督学习 数据预处理 开放问题    浏览次数: 1704
2

特征归一化对K Means有影响吗?是好的影响还是不好的影响?


 

wlk1993   2017-12-15 22:13



   3个回答 
7

K均值中计算距离的方法应该可以有很多,如果以常用的欧氏距离作为计算距离的方法的话,归一化是好的。这样每个特性的重要性就会得到统一。

比如你想用K均值给动物分类,假如把重量(单位:克)作为一个特征,由于其数值和方差非常大(比如大象和松鼠),在计算距离的时候其它特征影响就显得就无关紧要。变成了主要按照重量来分类了。

有的距离计算方法可以忽略量纲的问题,比如余弦距离。这时候归一化应该没什么影响。

s3040608090   2017-12-18 18:41

4

简单来说,特征是否缩放须谨慎,最好在缩放前理解每个特征的含义(正如s3040608090所讲的体重的例子)。

至于影响可好可坏,要视整个上下文而定。


补充一句,基于距离的模型都会有“该不该缩放/标准化”的问题,比如说kNN。


岛歌   2017-12-19 15:23

4

对特征归一化当然会对聚类结果产生影响

比如下图中,如果我们进行2-Means,A,B,C是一个聚类,D和E一个聚类


下图中,我们对x轴进行了归一化,然后2-Means,A和B是一个聚类,C,D和E是一个聚类。

所以归一化对聚类的结果是有影响的。


sasa   2017-12-31 09:53



  相关主题

进行K-Means聚类前,需要对数据做怎样的预处理?   1回答

二分法K Means的算法是什么?和普通的K Means有什么区别?   2回答

K-means怎么选K?   6回答

为什么K Means算法对样本的输入顺序比较敏感?   2回答

k-medoids和k-means区别   3回答

K Means初始点必须是样本中的点吗   2回答

通俗地解释c-means以及fuzzy c-means是什么意思   1回答

关于小批量K均值(mini-batch K Means)的问题   3回答

K-Means实现mini-batch online learning的原理是什么?   1回答

K-MEANS初始点选择的问题   2回答

Jenks和K Means在一维数据时,是不是等价的?   2回答

如何用K Means做异常点检测?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!