把训练集分成n份,用同种算法在每个子训练集上训练再把预测平均,效果如何?

  统计/机器学习 抽样方法 监督式学习    浏览次数:179        分享
0

相比同种算法在整个训练集上训练哪个精度高呢,是否存在一个最佳的n?

 

居十方   2019-05-13 09:27



   1个回答 
0

要看你的数据量,如果你的数据很小的话,把数据集切成n份,可能效果并不好。

数据量大的话,切成n份,分别训练n个模型,最后用n个模型的均值作为输出,应该是会降低预测的variance。

你的这个想法再进一步就会类似于random forest的bootstrap过程,所以我猜测你这么做之后的效果不一定比random forest好,但是应该比单独的一棵决策树好。

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-05-13 10:10



  相关主题

滚雪球抽样算法的实现   1回答

蓄水池抽样算法的问题   1回答

自助法(bootstrap)的0.632是怎么来的?   1回答

parametric bootstrap和nonparametric bootstrap的区别是什么?   1回答

bootstrap 一般用在哪些方面   1回答

Jackknife vs Bootstrap   1回答

两阶段抽样和分层抽样是一回事吗?   1回答

python产生一个随机置换?   1回答

python对给定的集合进行有放回抽样?   2回答

不平衡数据集重采样后平衡数据建模,再用这个模型去predict不平衡数据可行吗?   2回答

什么是SMOTE sampling方法?   3回答

SMOTE对于categorical feature如何处理?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!