如何判断缺失值是否是随机的缺失?

  统计/机器学习 数据预处理    浏览次数:9005        分享
3

我有一列数据,缺失值特别多,占到了70%左右。

我看了数据中的缺失值如何处理这个问题,发现有个答案里提到了要先判断这个缺失是否是随机的,那么怎么判断呢?

 

道画师   2017-04-23 14:44



   2个回答 
9

还有一种方式是做假设检验,看看整体的y和有缺失值的y是否是同分布。

可以参考:

如何检验两个样本是同分布的?

SofaSofa数据科学社区DS面试题库 DS面经

黄前志   2017-04-30 20:01

更新了,加了个链接。 - 黄前志   2017-05-08 07:38
5

最直观的就是画图。

对于回归:

把整体的y的直方图画出来,再把这列当中缺失值位置对应的y的直方图画出来,看看它们是不是接近的。


对于分类:

把整体的y的每个一类的百分比算出来,再把这列当中缺失值位置所对应的y的每一类的百分比算出来,看看是不是接近。


SofaSofa数据科学社区DS面试题库 DS面经

清风   2017-04-26 09:39



  相关讨论

数据预处理中,都有哪些方法能够处理缺失值(missing value)

训练集中有的特征含有缺失值,一般怎么处理

dataframe每行或者每列中缺失值(na, nan, null)的个数

怎么对dataframe中的某一列groupby求缺失值的个数?

如何处理聚类中的missing data

怎样处理具有大标签的数据?以及标签数据缺失怎么处理?

决策树或者随机森林能够直接处理missing data吗?

pandas里有没有类似于sql里coalesce的函数来处理缺失值?

pandas DataFrame中去掉缺失值多于50%的列

怎么利用python对时间序列中缺失值进行线性插值?

  随便看看

numpy里矩阵乘法matmul,@和dot的区别?

怎么把pandas dataframe中一列英文文本全部转成小写?

怎么把pandas.DataFrame转成torch.tensor的格式?

关于方差膨胀因子(VIF)的问题

Pandas怎样对dataframe中的一个时间列进行排序?