把训练集分成n份,用同种算法在每个子训练集上训练再把预测平均,效果如何?

  统计/机器学习 抽样方法 监督式学习    浏览次数:2542        分享
0

相比同种算法在整个训练集上训练哪个精度高呢,是否存在一个最佳的n?

 

居十方   2019-05-13 09:27



   1个回答 
0

要看你的数据量,如果你的数据很小的话,把数据集切成n份,可能效果并不好。

数据量大的话,切成n份,分别训练n个模型,最后用n个模型的均值作为输出,应该是会降低预测的variance。

你的这个想法再进一步就会类似于random forest的bootstrap过程,所以我猜测你这么做之后的效果不一定比random forest好,但是应该比单独的一棵决策树好。

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-05-13 10:10



  相关讨论

Jackknife vs Bootstrap

滚雪球抽样算法的实现

蓄水池抽样算法的问题

parametric bootstrap和nonparametric bootstrap的区别是什么?

两阶段抽样和分层抽样是一回事吗?

bootstrap 一般用在哪些方面

自助法(bootstrap)的0.632是怎么来的?

python对给定的集合进行有放回抽样?

不平衡数据集重采样后平衡数据建模,再用这个模型去predict不平衡数据可行吗?

python产生一个随机置换?

  随便看看

机器学习中的奥卡姆剃刀原理是什么意思

协方差矩阵一定是满秩的吗?

把tf.Tensor转换为numpy array

神经网络里为什么隐藏层越多越好?

python里怎么计算曼哈顿距离?