随机森林每次用多少个特征?

  统计/机器学习 监督式学习 特征选择
3

随机森林在训练的时候每次只用了一部分的特征。特征的数量是如何确定的?

一半?三分之一?还是有什么规则?


 

NextPage   2017-10-24 09:23



   2个回答 
4

根据随机森林的原创者的论文,如果是回归问题选$p/3$个特征,如果是分类问题选$\log_2(p+1)$个特征,$p$为特征总数。

不过这个只是一个“场外指导”,最好还是通过cross validation来选。


可爱多   2017-10-25 11:39

2

所谓规则或者规律,其实都是经验之谈。

特征选太多或者太少都是不合适的。

理论上来说,

太少:预测能力不强

太多:树的相关性太高

小橘书《elements of statistical learning》上推荐的是取根号。也就是说,如果原来有100个特征,那么每个split用10个;原来50个,那么差不多用7个。


归根结底,还是要做cross validation的。


木子周   2017-10-26 11:54



相关问题

对于数值特征,决策树是如何决定阈值的?   3回答

gbdt如何对连续特征离散化   1回答

为什么LASSO可以做特征选择,而Ridge却不行?   0回答

在分类问题中,有什么方法可以得到特征的重要性?   2回答

回归树是以什么标准来选特征的?   1回答

AIC可以是负数吗?   1回答

t-SNE如何实现降维?   0回答

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?   1回答

对于xgboost,还有必要做很多特征工程吗?   4回答

决策树的熵是什么?怎么用熵来选分叉?   1回答

决策树是如何得到量化的概率,不只是0或1的标签?   2回答

Extra Tree算法   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!