相关系数很小的变量一定要删掉吗?

  统计/机器学习 监督式学习 数据预处理 特征选择    浏览次数:884        分享
0

在做特征选择的时候,我们计算目标值和每个变量的相关系数,如果相关系数小,我们就可以认为这个变量对于预测y没有什么用,所以可以把它删掉,这样做有问题吗?

 

vivian_o   2018-11-03 13:02



   3个回答 
7

相关系数是用来表示线性关系的,如果是线性模型,相关系数很小的变量的确不会显著;对于广义线性模型的话就不一定了;对于非线性模型,比如决策树,即使相关系数为0的变量,也可能很有用。

SofaSofa数据科学社区DS面试题库 DS面经

zl_pku   2018-12-05 23:15

3

不可以简单是删除相关性小的变量哦。有两个原因

第一:看你选择的是什么相关性分析,皮尔森系数是线性的,斯皮尔曼等级是更通用的。如果你用皮尔森算出来很小,只能说明没有线性关系,有可能也很相关哦。

第二:例如房价和经纬度的关系,即使是用斯皮尔曼等级相关也会很小,但是经纬度却是很重要的信息

SofaSofa数据科学社区DS面试题库 DS面经

wqtang   2019-02-03 23:21

3

我觉得这样做不是太好

“多小算是小”这个问题很难决定

其次就是相关系数只是线性相关而已,非线性的怎么办?

有时候很多变量都相关性不高,但是它们一起作用可能效果明显,全都删掉明显就不好了

SofaSofa数据科学社区DS面试题库 DS面经

1point3acres   2019-01-27 16:12



  相关主题

特征相关性高的影响   2回答

相关中的效率指啥??   1回答

超几何分布几何分布的关联?   2回答

两个变量不相关但是也不独立   2回答

Python计算两个数组的相关系数   3回答

关于Python中 theano的相关问题   1回答

一个连续变量和一个二元变量的相关系数怎么求?   2回答

如果x是等级变量, y是连续变量 相关分析是不是用speaman   1回答

对两个相关系数做显著性的假设检验?   1回答

回归中自变量和因变量的相关系数和回归系数(斜率)有什么关系?   3回答

为什么说皮尔逊相关系数是刻画了线性相关性?   2回答

如何对两个名义分类变量的关联性进行可视化展示?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!