y取值有上下界限的回归问题

  统计/机器学习 回归分析 开放问题    浏览次数:3841        分享
0

大家好,我现在有一个回归问题,目标变量y是固定了上下界的,也就是说y是有一个取值范围的。所以我的预测值也一定要在这个范围之内。

对于这种回归问题,该怎么处理呢?需要对y做变换吗?

 

helen   2019-03-22 13:13



   3个回答 
2

既然y取值有固定范围,那么训练集的y肯定是在这个范围之内的。

可以考虑用决策树或者随机森林,它们的预测值肯定是在训练集y的范围之内的。

也可以考虑kNN模型,这种投票算法也能确保预测值不会超过训练集的范围。

SofaSofa数据科学社区DS面试题库 DS面经

maxroot   2019-03-23 22:46

2

1. 如maxroot说的用基于nearest neighbor类的方法,不会超过训练y范围。

2.基于最小二乘类方法,有可能超过训练y范围,这时要考虑:

2.1如果y有物理意义,或测试y超出范围的概率、幅度都很小,对结果影响不大,可以用训练y的最大最小值去限制。

2.2可以对y作变换,比如y-d,y+d作为最小最大值,为测试y留出一定富余范围。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2019-03-23 23:53

1

可以尝试用归一化。

训练集的预测值做归一化,训练模型,然后对测试集预测,预测值用刚刚的归一化映射回去,比如用Min-Max。理论上就可以通过训练集的y值的范围来控制测试集的y值的范围了。

如有错误,欢迎指出。

SofaSofa数据科学社区DS面试题库 DS面经

咸魚   2019-03-23 21:42



  相关讨论

如何对大型线性回归进行并行计算?

什么是“维数灾难”,为什么说引入核函数就避免“维数灾难”

Sigmoid核函数是不是对新输入的需要预测的点的测量误差不敏感?

线性回归是机器学习算法吗?

泊松回归有哪些应用场景?

有序的分类变量的预测是回归问题还是多分类问题?

拟合数据的Z-score规范化怎么进行操作?

随机森林回归输出的结果除了采用每棵决策树的平均值,还有别的方法吗?

通过SVD分解已经可以得到AX=Y解的稳定性的度量为什么还需要定义条件数来说明?

最小二乘线性回归的推导

  随便看看

sklearn模型当中的verbose是什么意思?

K-means怎么选K?

如何理解VC dimension?

pandas同时返回一个dataframe的前几行(head)和后几行(tail)

为什么机器学习中的优化问题很少用到牛顿法?