如果一列特征有90%以上的数值都是0,这个特征还有用吗?

  统计/机器学习 监督式学习 数据预处理 特征选择    浏览次数:347        分享
0

如果一列特征有90%以上的数值都是0,这个特征还有用吗?可以直接删掉吗?

 

newml   2019-08-22 22:59



   4个回答 
5

当然不能直接删掉,你可以只用这一个特征训练模型,看看效果如何,也可以用其他特征选择的方法,总之是不能直接删掉。

极端一点,假如你做一个binary classifcation,y就是90%是0,10%是1,现在你有一个y一模一样数值的黄金特征,难道你不用,要直接删掉?

SofaSofa数据科学社区DS面试题库 DS面经

LiShanfei   2019-08-26 05:45

3

有用,对于信用卡盗刷行为,可能某些人的某些特征百分率小于1%,但是这还是判断盗刷行为的重要feature

SofaSofa数据科学社区DS面试题库 DS面经

Proton   2019-08-26 22:03

1

有没有用都是数据本身决定的,没有什么万用的定理来决定一个特征用还是不用的。

SofaSofa数据科学社区DS面试题库 DS面经

u_u   2019-10-10 13:16

1

如果是分类问题,要不要做个特征与target的相关系数看一下。。

如果相关度很高,那肯定是要留着的。

SofaSofa数据科学社区DS面试题库 DS面经

awpboxer   2019-10-14 16:50



  相关主题

python中如何产生交互项?   2回答

如何检测判断特征的多重共线性?   2回答

在进行数值编码时出现错误,怎么解决?   1回答

SHAP可以解释二元分类模型吗?   0回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

partial dependence是什么意思?   1回答

使用uci的社区犯罪率做回归,怎么选择因变量呢   2回答

怎么处理训练集中有而测试集中没有的那些特征?   4回答

分类问题 特征怎么选择   1回答

对于组合特征怎么理解?   1回答

wrapper特征选择法是什么意思?   1回答

什么情况下需要做特征选择?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!