随机森林给出的变量的Importance是怎么来的

  统计/机器学习 监督式学习 特征选择    浏览次数:11971        分享
1

随机森林模型可以给出变量的Importance。这个重要性是怎么来的?有明确的定义吗?

谢谢!


 

kykix   2018-02-04 14:07



   2个回答 
2

sklearn里的importance就是所谓的Gini importance。

一个feature的importance等于这个feature在所有的树里的Gini importance的和。

Gini importance就是树在这个feature进行分叉时,Gini impurity下降的数值。


SofaSofa数据科学社区DS面试题库 DS面经

Josh_Josh   2018-02-14 09:59

1

random forest和xgboost计算feature importance是一样的

可以参考这个问题:在random forest和xgboost这类集成树模型中是如何计算_feature_importance的里的回答

SofaSofa数据科学社区DS面试题库 DS面经

maxroot   2018-10-25 21:01



  相关讨论

对于树模型,需不需要特征筛选

怎么理解决策树是模型自己在做interaction?

GBDT的数据在使用前有什么需要注意的吗?

随机森林每次用多少个特征?

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?

对于数值特征,决策树是如何决定阈值的?

adaboost里的feature importance和随机森林里的feature importance是一回事吗?

怎么理解lightgbm中的直方图法选择分裂点?

使用lightgbm,训练前对数据特征赋予权重是否对结果有影响

gbdt如何对连续特征离散化

  随便看看

怎么理解图像识别里的dice系数?

sklearn r2_score返回负数

回归问题中R方可以小于0吗?

numpy.array转换为图片并显示出来

怎么把pandas dataframe中的一列转成一个list?