数据预处理中,都有哪些方法能够处理缺失值(missing value)

  统计/机器学习 数据预处理    浏览次数: 756
0

我自己除了直接删掉缺失值对应的行以为,常用的就是用该列的平均值代替,但是总感觉这样不是最好的办法。请问大家还有别的好办法吗?

 

machine learner   2017-09-08 03:16



   2个回答 
3

题主也可以参考这个问题,应该是同样的问题。

训练集中有的特征含有缺失值,一般怎么处理 -SofaSofa

雷猴   2017-09-10 11:48

2

从实际角度出发,首先要了解缺失的原因;其次,看缺失值和预测值的联合分布,看看其中有没有什么蹊跷。

从处理的角度来说,如题主说到的,

  • 可以用均值,也可以用众数,中位数;
  • 可以按类的均值(众数、中位数)补全,比如说数据中A列中的数值有缺失,B列是一个categorical variable,你可以按照B列中的类别,用类别的均值对A列中的数据补全。

我只是抛砖引玉。期待更好的回答!


木子周   2017-09-10 09:48



  相关主题

训练集中有的特征含有缺失值,一般怎么处理   4回答

如何判断缺失值是否是随机的缺失?   2回答

dataframe每行或者每列中缺失值(na, nan, null)的个数   1回答

pandas DataFrame中去掉缺失值多于50%的列   1回答

如何处理聚类中的missing data   3回答

决策树或者随机森林能够直接处理missing data吗?   1回答

怎样处理具有大标签的数据?以及标签数据缺失怎么处理?   3回答

python里把数据中某一列中的na,nan,缺失值都替换成0?   1回答

dummy variable是n个还是n-1个   2回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答

python的dataframe如何重新排列行或者列   1回答

让DataFrame中的行按照某一列元素的绝对值从大到小排列   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!