sklearn里有哪些方法是可以处理不均衡的分类问题的?

  统计/机器学习 监督式学习 开放问题 Python    浏览次数:217        分享
0

sklearn里有哪些方法是可以处理不均衡的分类问题的?比如采样和权重?

 

钱塘哥   2019-03-23 11:01



   2个回答 
3

通过欠采样、过采样等方法来调整样本分布,可以参考imbalance包

调整样本权重,可以调整类似Logistic Regression中的class_weight参数来调整不同类别样本对损失函数影响的大小。

如有错误,欢迎指出。


SofaSofa数据科学社区DS面试题库 DS面经

咸魚   2019-03-23 17:30

谢谢,感觉坑很深啊,我得加油学习 - 钱塘哥   2019-03-25 08:50
0

sklearn只是工具,很多时候需要自己去完成一些步骤来处理非均衡问题。

比如欠采样、过采样,训练时候的权重,交叉验证的时候进行分层验证。

选用适合的损失函数和评价标准也是很重要的,比如用roc auc以及召回-精度曲线。

SofaSofa数据科学社区DS面试题库 DS面经

Willyd   2019-04-17 13:33



  相关主题

sklearn.linear_model.SGDClassifier中的参数n_iter设置问题   2回答

查看sklearn版本   1回答

GradientBoostingClassifier的每次输出结果不同   1回答

sklearn predict的默认阈值   2回答

sklearn实现adaboost算法了吗?   1回答

sklearn训练classifier的时候报错Unknown label type   1回答

sklearn可以用gpu加速吗?   2回答

sklearn里怎么做多项式回归?   3回答

求sklearn.pipeline.Pipeline使用的例子   1回答

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?   1回答

sklearn.linear_model.SGDClassifier中modified_huber是什么意思?   1回答

sklearn.linear_model.SGDClassifier能做小批量学习(mini-batch)吗?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!