回归问题中的stratified cross validation?

  统计/机器学习 模型验证    浏览次数:5016        分享
3

stratified cross validation对于分类问题,是按照标签比例生成每个fold,使得每个fold中标签的比例都是和原数据集一样的。那么回归问题怎么处理?如何按照比例?按照什么比例?

 

Alfred   2017-04-16 09:02



   2个回答 
5

可能这个问题还没定论,根据sklearn中的StratifiedKFold也尚未实现针对于回归问题的Stratified Cross Validation。


一种比较合理的能够实现Stratified Cross Validation的方法是对所有真实值按照四等分点分成四份,然后从这四等分的子集中随机划分K组,再将它们重新组合,成为那K个fold的数据集。这样能保证每个fold中真值的分布比较接近。

SofaSofa数据科学社区DS面试题库 DS面经

高代兄   2017-04-17 08:02

1

也可以从feature中挑一个categorical feature,然后按照这个feature中各个类别的比例来生成k个fold的数据。

SofaSofa数据科学社区DS面试题库 DS面经

ljljlj   2017-09-15 09:24



  相关讨论

如果我用交叉验证,还是否需要单独分出测试集?

交叉验证是如何进行的?

测试集和验证集的区别?

十折交叉验证

如何在保持查全率不变的情况下提高查准率?

精度-召回曲线的起点和终点是什么?

Stratified k-fold cross validation(分层交叉验证)

micro和macro F1 score分别是什么意思?

k-fold cross validation的k怎么选

K折交叉验证是否有意义?

  随便看看

ARIMA模型中的三个参数(p, d, q)都是什么意思?

laplace光滑什么意思

求多个torch tensor的平均值

推荐开放数据库

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?