怎么处理真值大部分为0的回归问题

  统计/机器学习 回归分析    浏览次数: 525
0

这个回归问题里,真实的y,大部分为0(95%以上)。有什么好的解决方案吗?


 

剪叔   2018-03-21 20:46



   3个回答 
6

根据https://stats.stackexchange.com/questions/187824/how-to-model-non-negative-zero-inflated-continuous-data

如y是整数,可以用Zero-inflated Poisson models。

如果是实数:

1. Tobit regression

2. 先做0/非0的分类,然后做非0的回归。

3.Tweedie distributions

简单的方法就是第2个,其余两个在R有package。

Zealing   2018-03-22 00:39

3

我觉得可以先做一个逻辑回归(如果大于0,则label为1;等于0,label为0)。

然后再对所有大于0的数值,做一个线性回归。

最后两者相乘。



kykix   2018-03-23 09:43

0

对y+1取log,然后再回归呢

有故事的董同学   2018-05-15 12:06



  相关主题

怎么理解分位数回归quantile regression的目标函数?   1回答

逻辑回归模型中变量的系数怎么理解?   4回答

最小二乘线性回归的推导   2回答

如果迫使一个线性回归模型的截距为0,会有什么坏处吗?   2回答

在线性回归模型中存在epoch的说法吗?   2回答

与基于一般形式的支持向量回归相比,最小二乘支持向量回归更准确?   2回答

线性回归需要满足哪些基本前提假设   1回答

泊松回归的公式是什么?   1回答

常用的回归模型中,哪些具有较好的鲁棒性(robustness)?   2回答

系数非负的线性回归的python实现   2回答

python里怎么做分位数回归(quantile regression)?   1回答

adaboost做回归预测的时候,是怎么调整样本权重的?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!