决策树、随机森林中的多重共线性问题

  统计/机器学习 监督式学习 数据预处理
9

对于线性回归模型,数据中是不能有多重共线性的。我想知道如果使用决策树或者随机森林或者其他一些基于树的模型,数据中的多重共线性的现象对模型有没有什么影响?

谢谢!

 

小齐   2017-09-03 00:06



   3个回答 
7

同意@waccam  说的。随机森林的预测能力不受多重共线性影响。


但是数据的解释性会被多重共线性影响。随机森林可以返回特征的重要性(importantce),当有多重共线性时,importance会被影响。一些具体多重共线性的特征的重要性会被相互抵消,从而影响我们解释和理解特征。


比如说,特征A和B完全一样,我们在用随机森林时,它们的重要性应该非常接近(考虑到随机性)。如果我们在训练前删除特征B,那么特征A的重要性就会翻番。这一下子就影响了我们对特征、数据的理解。


abuu   2017-11-09 15:23

5

参考这个实验英文原文

如果没时间看的话,我可以直接告诉你结论,多重共线性不影响random forest的预测能力。


sasa   2017-11-08 11:04

4

多重共线性的特征不会对决策树、随机森林的预测能力有影响。

多重共线性最极端的情况是有两个完全一样的特征,特征A和特征B。当特征A被使用之后,决策树不会再选择使用特征B,因为特征B并没有增加新的有效信息。同理,如何决策树先选择了使用特征B,那么特征A也不会再被使用。

所以基于树的模型不会收到多重共线性的影响。


waccam   2017-11-08 12:38



相关问题

决策树剪枝有什么策略或者注意事项?   0回答

决策树可以做多元分类吗?   1回答

决策树的深度和数据特征个数的关系   0回答

剪枝是什么意思   1回答

Gradient tree boosting和random forest (随机森林) 有什么区别和联系   1回答

随机森林(random forest)和支持向量机(SVM)各有什么优劣   1回答

Extra Tree算法   1回答

决策树算法ID3,C4.5和CART的特点、异同?   2回答

决策树的熵是什么?怎么用熵来选分叉?   1回答

决策树是如何得到量化的概率,不只是0或1的标签?   2回答

python sklean中的决策树是用的哪一种决策树算法?   1回答

python里实现一个简单的决策树   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!