使用uci的社区犯罪率做回归,怎么选择因变量呢

  统计/机器学习 监督式学习 特征选择    浏览次数:131        分享
0

我是吧数据做相关,

选择相关系数0.5以上的 ,大概10多个变量

训练出来的分数都是0.6附近 

测试的分时也是在0.6附件,


不知道还是否需要在10多个变量里排列组合 进一步提高分时吗 

需要加入一些相关系数低的变量吗

 

constant007   2019-06-08 10:42



   2个回答 
1

选择变量的方法很多啊,比如用lasso,random forests或者向前选择法

Lasso: 考虑到特征之间相关性,只选出一些比较重要的特征,其他特征的系数为0

Random forest:会生成每个特征的重要性,你可以选择重要性高的特征保留在模型里

向前选择:就是一开始没有变量,每次增加一个最优变量,直到模型的表现不再提高为止

SofaSofa数据科学社区DS面试题库 DS面经

maxroot   2019-06-09 13:49

回答已更新 - maxroot   2019-06-09 19:45
谢谢 - constant007   2019-06-10 11:05
0

@maxroot 没有太明白  能否详细说说  

SofaSofa数据科学社区DS面试题库 DS面经

constant007   2019-06-09 17:10

你不应该自问自答啊,你应该评论我的回答的 - maxroot   2019-06-09 19:46


  相关主题

partial dependence是什么意思?   1回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

对于组合特征怎么理解?   1回答

一个特征有两个可选的值,只需满足其中一个即可,该如何处理?   1回答

python中如何产生交互项?   2回答

python使用MFCC特征训练GMMHMM模型   2回答

AIC可以是负数吗?   1回答

向前逐步选择法和向后逐步选择法的结果是一样的吗?   1回答

如何检测判断特征的多重共线性?   2回答

在进行数值编码时出现错误,怎么解决?   1回答

关于K均值聚类的权重问题   2回答

训练样本中每个维度是否独立对回归结果的影响   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!