随机森林每次用多少个特征?

  统计/机器学习 监督式学习 特征选择    浏览次数:5604        分享
3

随机森林在训练的时候每次只用了一部分的特征。特征的数量是如何确定的?

一半?三分之一?还是有什么规则?


 

NextPage   2017-10-24 09:23



   2个回答 
4

根据随机森林的原创者的论文,如果是回归问题选$p/3$个特征,如果是分类问题选$\log_2(p+1)$个特征,$p$为特征总数。

不过这个只是一个“场外指导”,最好还是通过cross validation来选。


SofaSofa数据科学社区DS面试题库 DS面经

可爱多   2017-10-25 11:39

2

所谓规则或者规律,其实都是经验之谈。

特征选太多或者太少都是不合适的。

理论上来说,

太少:预测能力不强

太多:树的相关性太高

小橘书《elements of statistical learning》上推荐的是取根号。也就是说,如果原来有100个特征,那么每个split用10个;原来50个,那么差不多用7个。


归根结底,还是要做cross validation的。


SofaSofa数据科学社区DS面试题库 DS面经

木子周   2017-10-26 11:54



  相关主题

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?   1回答

对于数值特征,决策树是如何决定阈值的?   3回答

怎么理解决策树是模型自己在做interaction?   2回答

对于树模型,需不需要特征筛选   2回答

怎么理解lightgbm中的直方图法选择分裂点?   1回答

随机森林给出的变量的Importance是怎么来的   2回答

决策树的深度和数据特征个数的关系   1回答

怎么得到randomforestregressor里每棵树的预测结果?   1回答

Extra Tree算法   1回答

Adaboost里的树有没有可能权重是负数?   1回答

Gradient tree boosting和random forest (随机森林) 有什么区别和联系   1回答

adaboost里的feature importance和随机森林里的feature importance是一回事吗?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!