回归问题中的stratified cross validation?-SofaSofa

stratified cross validation对于分类问题，是按照标签比例生成每个fold，使得每个fold中标签的比例都是和原数据集一样的。那么回归问题怎么处理？如何按照比例？按照什么比例？

Alfred 2017-04-16 09:02

可能这个问题还没定论，根据sklearn中的StratifiedKFold也尚未实现针对于回归问题的Stratified Cross Validation。

一种比较合理的能够实现Stratified Cross Validation的方法是对所有真实值按照四等分点分成四份，然后从这四等分的子集中随机划分K组，再将它们重新组合，成为那K个fold的数据集。这样能保证每个fold中真值的分布比较接近。

高代兄 2017-04-17 08:02

也可以从feature中挑一个categorical feature，然后按照这个feature中各个类别的比例来生成k个fold的数据。

ljljlj 2017-09-15 09:24

回归问题中的stratified cross validation?