sklearn中的predict_proba方法的返回值的意义

  统计/机器学习 监督式学习 Python    浏览次数: 9357
3

我用sklearn模块进行退货预测,我调用predict_proba以后,发现返回给我的不是概率向量(我有n个预测样本),而是一个n行2列的矩阵,

这个矩阵是什么意思?这个predict_proba返回的是什么概率?

 

牛笔小新   2017-04-18 12:19



   2个回答 
8

predict_proba返回的是一个n行k列的数组,第i行第j列上的数值是模型预测第i个预测样本的标签为j的概率。所以每一行的和应该等于1.


举个例子

>>> from sklearn.linear_model import LogisticRegression
>>> import numpy as np
>>> x_train = np.array([[1,2,3],
                        [1,3,4],
                        [2,1,2],
                        [4,5,6],
                        [3,5,3],
                        [1,7,2]])
>>> y_train = np.array([0, 0, 0, 1, 1, 1])
>>> x_test = np.array([[2,2,2],
                       [3,2,6],
                       [1,7,4]])
>>> clf = LogisticRegression()
>>> clf.fit(x_train, y_train)
# 返回预测标签
>>> clf.predict(x_test)
array([1, 0, 1])
# 返回预测属于某标签的概率
>>> clf.predict_proba(x_test)
array([[ 0.43348191, 0.56651809],
       [ 0.84401838, 0.15598162],
       [ 0.13147498, 0.86852502]])

预测[2,2,2]的标签是0的概率为0.43348191,1的概率为0.56651809

预测[3,2,6]的标签是0的概率为0.84401838,1的概率为0.15598162

预测[1,7,4]的标签是0的概率为0.13147498,1的概率为0.86852502



SofaSofa数据科学社区 DS面经 问答 实战

Nagozi   2017-04-18 22:51

5

对于一个k元分类

probas = clf.predict_proba(test)

probas是一个k列的array

probas[:, j]这一列是每个test样本为j的概率。

probas[i, j]是预测第i个样本的标签为j的概率。



SofaSofa数据科学社区 DS面经 问答 实战

Lydia   2017-09-29 23:04



  相关主题

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?   1回答

sklearn.linear_model.SGDClassifier能做小批量学习(mini-batch)吗?   2回答

sklearn里learning_rate什么意思?   2回答

sklearn里的LabelEncoder什么用?   3回答

sklearn predict的默认阈值   2回答

sklearn实现adaboost算法了吗?   1回答

GradientBoostingClassifier的每次输出结果不同   1回答

sklearn.linear_model.SGDClassifier中的参数n_iter设置问题   2回答

sklearn SGDClassifier的partial_fit是什么意思?   2回答

sklearn.svm.SVC中的gamma和rbf中的sigma什么关系   1回答

python sklearn模型中random_state参数的意义   2回答

sklearn训练classifier的时候报错Unknown label type   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!