sklearn里有哪些方法是可以处理不均衡的分类问题的?比如采样和权重?
3个回答
通过欠采样、过采样等方法来调整样本分布,可以参考imbalance包
调整样本权重,可以调整类似Logistic Regression中的class_weight参数来调整不同类别样本对损失函数影响的大小。
如有错误,欢迎指出。
sklearn只是工具,很多时候需要自己去完成一些步骤来处理非均衡问题。
比如欠采样、过采样,训练时候的权重,交叉验证的时候进行分层验证。
选用适合的损失函数和评价标准也是很重要的,比如用roc auc以及召回-精度曲线。
SofaSofa数据科学社区DS面试题库 DS面经在选择train和test集合时,sklearn就已经考虑到了不均衡性,参见函数说明
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
stratify : array-like or None (default=None)
If not None, data is split in a stratified fashion, using this as the class labels.
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
sklearn SGDClassifier的partial_fit是什么意思?
3回答
求sklearn.pipeline.Pipeline使用的例子
1回答
查看sklearn版本
1回答
sklearn错误ImportError: cannot import name 'joblib'
1回答
GradientBoostingClassifier的每次输出结果不同
1回答
同一批样本数据,利用sklearn中二项逻辑回归预测同一批预测数据的概率,每次预测结果有很大不同
1回答
怎么获取sklearn.linear_model.SGDRegressor的回归系数、截距?
1回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!