我现在对一个数据作clustering,missing data特别多,missing data有分类,也有实数。
我现在处理的方法是:
1.填一个固定值,比如100,表示它是missing data
2.填所在变量的均值
3.用SVDmiss填值。
4.在两点算距离时,忽略出现nan的变量。比如x1=(1,2,3),x2=(2,nan,4),dist(x1,x2)=sqrt((1-2)^2+(3-4)^2)。
请问大家还有什么思路。
3个回答
可以试试k POD
k POD类似于k Means,但是可以处理missing
方法大概是这个思路
1. 先只用完整的数据进行聚类
2. 然后根据聚类的结果,用一个聚类中的均值来代替这个聚类中的缺失值
3. 用填充好的数据,再聚类,然后根据新的聚类,重新再填充缺失值
4. 然后再聚类,反复进行
SofaSofa数据科学社区DS面试题库 DS面经
这个感觉挺有意思
-
WinJ
2019-06-11 10:55
一般不就是上来二话不说,删了。
要么对于离散的,可以用朗格朗日插值,就是插值法,或者中值众数中位数填充。还可以用模型对缺失值进行预测。
对于缺失值达到一半左右的,直接把缺失和不缺失做二分类。
SofaSofa数据科学社区DS面试题库 DS面经