K Means初始点必须是样本中的点吗

  统计/机器学习 无监督学习    浏览次数:3570        分享
1

K Means初始点是随机的,那么必须是样本中的点吗?还是根据数值的范围,用Uniform分布产生的随机点?


 

杨业勇   2018-06-21 08:20



   2个回答 
4

不一定是样本中的点,但是为了方便,通常选样本中的作为初始的中心点,但是经过一次迭代之后,中心点一般就不是样本中的点了。


SofaSofa数据科学社区DS面试题库 DS面经

曾经是科比   2018-06-21 10:24

2

最好用样本中的点。因为存在就合理,用没见过的值,会有风险。举个极端的例子。比如数据范围是[0,1],如果出现一个异常点是10000,那么初始值是uniform[0,10000]的随机数,会很难收敛。如果用样本中的点做初始值,只有很小概率会用这个异常点。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-06-22 09:16



  相关主题

KMeans++是怎么选初始点的?   1回答

kmeans可以做并行化计算达到加速效果吗?   3回答

进行K-Means聚类前,需要对数据做怎样的预处理?   1回答

关于online KMeans步骤中成员更新分类的问题?   1回答

二分法K Means的算法是什么?和普通的K Means有什么区别?   2回答

kmeans可以用在三维数据上吗?   2回答

Jenks和K Means在一维数据时,是不是等价的?   2回答

为什么K Means算法对样本的输入顺序比较敏感?   2回答

K-means怎么选K?   7回答

可视化K Means的时候怎么把聚类的中心点和样本点连起来?   1回答

谱聚类最后的K-Means会把所有全零行分到一个簇吗   0回答

如何用K Means做异常检测(outlier anomaly detection)?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!