使用uci的社区犯罪率做回归,怎么选择因变量呢

  统计/机器学习 监督式学习 特征选择    浏览次数:2589        分享
0

我是吧数据做相关,

选择相关系数0.5以上的 ,大概10多个变量

训练出来的分数都是0.6附近 

测试的分时也是在0.6附件,


不知道还是否需要在10多个变量里排列组合 进一步提高分时吗 

需要加入一些相关系数低的变量吗

 

constant007   2019-06-08 10:42



   2个回答 
1

选择变量的方法很多啊,比如用lasso,random forests或者向前选择法

Lasso: 考虑到特征之间相关性,只选出一些比较重要的特征,其他特征的系数为0

Random forest:会生成每个特征的重要性,你可以选择重要性高的特征保留在模型里

向前选择:就是一开始没有变量,每次增加一个最优变量,直到模型的表现不再提高为止

SofaSofa数据科学社区DS面试题库 DS面经

maxroot   2019-06-09 13:49

回答已更新 - maxroot   2019-06-09 19:45
谢谢 - constant007   2019-06-10 11:05
0

@maxroot 没有太明白  能否详细说说  

SofaSofa数据科学社区DS面试题库 DS面经

constant007   2019-06-09 17:10

你不应该自问自答啊,你应该评论我的回答的 - maxroot   2019-06-09 19:46


  相关讨论

不同模型下的特征重要性是不同的吗?

SHAP可以解释二元分类模型吗?

shap值为负是什么意思,可以删掉的意思吗

在分类问题中,有什么方法可以得到特征的重要性?

partial dependence是什么意思?

特征组合的重要性排序

分类问题 特征怎么选择

什么情况下需要做特征选择?

对于组合特征怎么理解?

wrapper特征选择法是什么意思?

  随便看看

随机森林(random forest)和支持向量机(SVM)各有什么优劣

为什么自然常数e等于阶乘的倒数的和?

逻辑回归的损失函数是怎么来的

numpy里生成单位矩阵?

多个独立同分布的均匀随机变量的最小值的期望是多少?