如何处理聚类中的missing data-SofaSofa

我现在对一个数据作clustering，missing data特别多，missing data有分类，也有实数。

我现在处理的方法是：

1.填一个固定值，比如100，表示它是missing data

2.填所在变量的均值

3.用SVDmiss填值。

4.在两点算距离时，忽略出现nan的变量。比如x1=（1，2，3），x2=（2，nan，4），dist（x1,x2)=sqrt((1-2)^2+(3-4)^2)。

请问大家还有什么思路。

Zealing 2018-03-19 20:18

可以试试k POD

k POD类似于k Means，但是可以处理missing

方法大概是这个思路

1. 先只用完整的数据进行聚类

2. 然后根据聚类的结果，用一个聚类中的均值来代替这个聚类中的缺失值

3. 用填充好的数据，再聚类，然后根据新的聚类，重新再填充缺失值

4. 然后再聚类，反复进行

宽宽 2018-03-26 09:11

这个感觉挺有意思 - WinJ 2019-06-11 10:55

木子周 2018-03-19 22:12

一般不就是上来二话不说，删了。

要么对于离散的，可以用朗格朗日插值，就是插值法，或者中值众数中位数填充。还可以用模型对缺失值进行预测。

对于缺失值达到一半左右的，直接把缺失和不缺失做二分类。

陈十一 2018-03-20 10:46

如何处理聚类中的missing data