随机森林预测问题

  统计/机器学习 监督式学习    浏览次数:761        分享
0

的在一个500条的数据样本中,标签只有两类,使用随机森林去训练该数据集,发现当正类1的比例越高,随机森林的准确率越高,当正类和负类接近于50%的时候,准确率也在50%左右,这是什么原因?按我的理解是,随机森林训练后的模型是可以正确预测到正负类,因此准确率是准确预测为正类或负类的概率,而不是预测为正类的概率。

 

蝌蚪   2021-06-17 08:24



   2个回答 
1

首先我们来看准确率评价指标的定义:

$ACC=\frac{TP+TN}{TP+TN+FP+FN}$

所以准确率的确就是被分对的样本数除以所有的样本数,不管是正类还是负类,但你忽略了一个问题就是你的模型可能预测正类样本的效果会远远好于负类样本,这样便会导致你说的正类比例越高,效果越好。

验证这个问题其实也很简单,计算一下Precision和Recall,你的Precision应该会低于Recall。


SofaSofa数据科学社区DS面试题库 DS面经

cabbage   2021-07-11 22:54

0

当自变量和因变量不相关时,模型可能只是在学习因变量的分布

下面的代码可以得到90%以上的准确率,但是当样本比例为1:1时,准确率为50%。具体要看混淆矩阵

x = np.random.normal(size = (500,2))
y = [1]*400+[0]*100
reg = se.RandomForestClassifier()
reg.fit(x,y)
reg.score(np.random.normal(size = (100,2)),[1]*100)
SofaSofa数据科学社区DS面试题库 DS面经

lingf33   2021-07-27 16:37



  相关主题

随机森林中增加树的数量对于偏差和方差的影响   2回答

决策树可以做多元分类吗?   1回答

决策树的深度和数据特征个数的关系   1回答

怎么得到randomforestregressor里每棵树的预测结果?   1回答

python里实现一个简单的决策树   1回答

树模型有哪些假设?比如,对样本数据的分布有做假设吗?   0回答

决策树是如何得到量化的概率,不只是0或1的标签?   2回答

决策树算法ID3,C4.5和CART的特点、异同?   3回答

随机森林的模型一般都很大么?   3回答

请教lightGBM中的level wise具体计算步骤是怎样的?   1回答

怎么理解RandomForest中的max_features?   1回答

随机森林是如何计算测试样本的概率的?   0回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!