相关系数很小的变量一定要删掉吗?

  统计/机器学习 监督式学习 数据预处理 特征选择    浏览次数:501        分享
0

在做特征选择的时候,我们计算目标值和每个变量的相关系数,如果相关系数小,我们就可以认为这个变量对于预测y没有什么用,所以可以把它删掉,这样做有问题吗?

 

vivian_o   2018-11-03 13:02



   3个回答 
7

相关系数是用来表示线性关系的,如果是线性模型,相关系数很小的变量的确不会显著;对于广义线性模型的话就不一定了;对于非线性模型,比如决策树,即使相关系数为0的变量,也可能很有用。

SofaSofa数据科学社区 DS面经 问答 实战

zl_pku   2018-12-05 23:15

3

不可以简单是删除相关性小的变量哦。有两个原因

第一:看你选择的是什么相关性分析,皮尔森系数是线性的,斯皮尔曼等级是更通用的。如果你用皮尔森算出来很小,只能说明没有线性关系,有可能也很相关哦。

第二:例如房价和经纬度的关系,即使是用斯皮尔曼等级相关也会很小,但是经纬度却是很重要的信息

SofaSofa数据科学社区 DS面经 问答 实战

wqtang   2019-02-03 23:21

3

我觉得这样做不是太好

“多小算是小”这个问题很难决定

其次就是相关系数只是线性相关而已,非线性的怎么办?

有时候很多变量都相关性不高,但是它们一起作用可能效果明显,全都删掉明显就不好了

SofaSofa数据科学社区 DS面经 问答 实战

1point3acres   2019-01-27 16:12



  相关主题

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?   3回答

相关中的效率指啥??   1回答

Python计算两个数组的相关系数   3回答

两个变量不相关但是也不独立   2回答

对两个相关系数做显著性的假设检验?   1回答

如果x是等级变量, y是连续变量 相关分析是不是用speaman   1回答

为啥计算pearson相关系数和线性回归的coef不同呢   2回答

有序分类变量的相关系数   2回答

怎么判断是因果还是相关?   0回答

相关系数的p值是怎么算的?   2回答

为什么说皮尔逊相关系数是刻画了线性相关性?   2回答

一个连续变量和一个二元变量的相关系数怎么求?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!