如何判断缺失值是否是随机的缺失?

  统计/机器学习 数据预处理    浏览次数: 1138
3

我有一列数据,缺失值特别多,占到了70%左右。

我看了数据中的缺失值如何处理这个问题,发现有个答案里提到了要先判断这个缺失是否是随机的,那么怎么判断呢?

 

道画师   2017-04-23 14:44



   2个回答 
7

还有一种方式是做假设检验,看看整体的y和有缺失值的y是否是同分布。

可以参考:

如何检验两个样本是同分布的?

SofaSofa数据科学社区 DS面经 问答 实战

黄前志   2017-04-30 20:01

更新了,加了个链接。 - 黄前志   2017-05-08 07:38
5

最直观的就是画图。

对于回归:

把整体的y的直方图画出来,再把这列当中缺失值位置对应的y的直方图画出来,看看它们是不是接近的。


对于分类:

把整体的y的每个一类的百分比算出来,再把这列当中缺失值位置所对应的y的每一类的百分比算出来,看看是不是接近。


SofaSofa数据科学社区 DS面经 问答 实战

清风   2017-04-26 09:39



  相关主题

dataframe每行或者每列中缺失值(na, nan, null)的个数   1回答

数据预处理中,都有哪些方法能够处理缺失值(missing value)   2回答

训练集中有的特征含有缺失值,一般怎么处理   5回答

怎么对dataframe中的某一列groupby求缺失值的个数?   0回答

pandas DataFrame中去掉缺失值多于50%的列   1回答

如何处理聚类中的missing data   3回答

决策树或者随机森林能够直接处理missing data吗?   1回答

怎样处理具有大标签的数据?以及标签数据缺失怎么处理?   3回答

python里把数据中某一列中的na,nan,缺失值都替换成0?   1回答

什么时候需要对y或者特征进行对数变换?   1回答

z-score标准化不适用于处理什么样的数据?   1回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!