做多元线性回归的时候,怎么快速排除掉没有用的特征?

  统计/机器学习 回归分析 特征选择    浏览次数:455        分享
0

做多元线性回归的时候,特征很多,有的甚至对模型精度提升是副作用,怎么快速筛选出这些特征,并且排除掉这些没有用的特征?

 

baozi   2022-03-23 21:26



   1个回答 
2

快速排除的话,有几个方法:

1)可以考虑单因子模型,单因子预测效果最差的特征可以排除。

2)看特征的缺失值占比,缺失值占比过高的,可以直接剔除

3)看特征方差,特征是常数或者接近为常数的,可以直接剔除

4)做LASSO,被LASSO剔除的变量可以不考虑

5)重复的特征,比如两个特征几乎一样,也可以直接剔除


如果复杂一点、精确一点的话,可以做逐步特征选择(向前或者向后),AIC、BIC,feature importanceVIF方法等等,做交叉验证来看哪些特征需要剔除掉。

SofaSofa数据科学社区DS面试题库 DS面经

kidd23   2022-04-08 16:37



  相关讨论

AIC可以是负数吗?

向前逐步选择法和向后逐步选择法的结果是一样的吗?

训练样本中每个维度是否独立对回归结果的影响

通过SVD分解已经可以得到AX=Y解的稳定性的度量为什么还需要定义条件数来说明?

LBP算法中解对应的条件数怎么计算?

对于组合特征怎么理解?

什么情况下需要做特征选择?

wrapper特征选择法是什么意思?

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?

在分类问题中,有什么方法可以得到特征的重要性?

  随便看看

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?

如果样本不是正态分布,还能用t-test或者z-test吗?

Pandas怎样对dataframe中的一个时间列进行排序?

kappa statistic怎么理解?有什么意义?

sklearn可以用gpu加速吗?