怎么处理真值大部分为0的回归问题

  统计/机器学习 回归分析    浏览次数: 148
0

这个回归问题里,真实的y,大部分为0(95%以上)。有什么好的解决方案吗?


 

剪叔   2018-03-21 20:46



   2个回答 
5

根据https://stats.stackexchange.com/questions/187824/how-to-model-non-negative-zero-inflated-continuous-data

如y是整数,可以用Zero-inflated Poisson models。

如果是实数:

1. Tobit regression

2. 先做0/非0的分类,然后做非0的回归。

3.Tweedie distributions

简单的方法就是第2个,其余两个在R有package。

Zealing   2018-03-22 00:39

2

我觉得可以先做一个逻辑回归(如果大于0,则label为1;等于0,label为0)。

然后再对所有大于0的数值,做一个线性回归。

最后两者相乘。



kykix   2018-03-23 09:43



  相关主题

逻辑回归模型中变量的系数怎么理解?   4回答

常用的回归模型中,哪些具有较好的鲁棒性(robustness)?   1回答

泊松回归的公式是什么?   1回答

怎么理解分位数回归quantile regression的目标函数?   1回答

在线性回归模型中存在epoch的说法吗?   2回答

线性回归需要满足哪些基本前提假设   1回答

python里怎么做分位数回归(quantile regression)?   1回答

线性回归的bagging   2回答

逻辑回归的前提假设是什么?   1回答

可以对线性回归进行boosting吗?   3回答

python中可以做beta regression的包?   1回答

线性回归是机器学习算法吗?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!