我是吧数据做相关,
选择相关系数0.5以上的 ,大概10多个变量
训练出来的分数都是0.6附近
测试的分时也是在0.6附件,
不知道还是否需要在10多个变量里排列组合 进一步提高分时吗
需要加入一些相关系数低的变量吗
2个回答
选择变量的方法很多啊,比如用lasso,random forests或者向前选择法
Lasso: 考虑到特征之间相关性,只选出一些比较重要的特征,其他特征的系数为0
Random forest:会生成每个特征的重要性,你可以选择重要性高的特征保留在模型里
向前选择:就是一开始没有变量,每次增加一个最优变量,直到模型的表现不再提高为止
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
SHAP可以解释二元分类模型吗?
1回答
分类问题 特征怎么选择
1回答
特征组合的重要性排序
1回答
对于组合特征怎么理解?
1回答
什么情况下需要做特征选择?
1回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!