决策树、随机森林中的多重共线性问题

  统计/机器学习 监督式学习 数据预处理    浏览次数: 2449
9

对于线性回归模型,数据中是不能有多重共线性的。我想知道如果使用决策树或者随机森林或者其他一些基于树的模型,数据中的多重共线性的现象对模型有没有什么影响?

谢谢!

 

小齐   2017-09-03 00:06



   3个回答 
9

同意@waccam  说的。随机森林的预测能力不受多重共线性影响。


但是数据的解释性会被多重共线性影响。随机森林可以返回特征的重要性(importantce),当有多重共线性时,importance会被影响。一些具体多重共线性的特征的重要性会被相互抵消,从而影响我们解释和理解特征。


比如说,特征A和B完全一样,我们在用随机森林时,它们的重要性应该非常接近(考虑到随机性)。如果我们在训练前删除特征B,那么特征A的重要性就会翻番。这一下子就影响了我们对特征、数据的理解。


SofaSofa数据科学社区 DS面经 问答 实战

abuu   2017-11-09 15:23

7

多重共线性的特征不会对决策树、随机森林的预测能力有影响。

多重共线性最极端的情况是有两个完全一样的特征,特征A和特征B。当特征A被使用之后,决策树不会再选择使用特征B,因为特征B并没有增加新的有效信息。同理,如何决策树先选择了使用特征B,那么特征A也不会再被使用。

所以基于树的模型不会收到多重共线性的影响。


SofaSofa数据科学社区 DS面经 问答 实战

waccam   2017-11-08 12:38

6

参考这个实验英文原文

如果没时间看的话,我可以直接告诉你结论,多重共线性不影响random forest的预测能力。


SofaSofa数据科学社区 DS面经 问答 实战

sasa   2017-11-08 11:04



  相关主题

决策树算法ID3,C4.5和CART的特点、异同?   3回答

Gradient tree boosting和random forest (随机森林) 有什么区别和联系   1回答

剪枝是什么意思   1回答

关于knn算法中kd树的问题   1回答

Extra Tree算法   1回答

决策树剪枝有什么策略或者注意事项?   2回答

决策树是如何得到量化的概率,不只是0或1的标签?   2回答

决策树怎么做增量学习或者online学习?   1回答

求问:Cart分类树为什么是基尼指数最小化准则   1回答

随机森林中增加树的数量对于偏差和方差的影响   2回答

随机森林是如何计算测试样本的概率的?   1回答

决策树可以做多元分类吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!