随机森林中的predict_proba

  统计/机器学习 Python 数据竞赛    浏览次数: 319
0

交通事故理赔的竞赛中,用随机森林进行理赔与否的预测,标杆模型中的代码简洁明了如下:

# -*- coding: utf-8 -*-

import pandas as pd

from sklearn.ensemble import RandomForestClassifier

# 读取数据

train = pd.read_csv("C:\\python\\dataset\\random forest\\train.csv")

test = pd.read_csv("C:\\python\\dataset\\random forest\\test.csv")

submit = pd.read_csv("C:\\python\\dataset\\random forest\\sample_submit.csv")

# 删除id

train.drop('CaseId', axis=1, inplace=True)

test.drop('CaseId', axis=1, inplace=True)

# 取出训练集的y

y_train = train.pop('Evaluation')

# 建立随机森林模型

clf = RandomForestClassifier(n_estimators=100, random_state=0)

clf.fit(train, y_train)

#这里到底什么意思?

y_pred = clf.predict_proba(test)[:, 1]

# 输出预测结果至my_RF_prediction.csv

submit['Evaluation'] = y_pred

submit.to_csv('C:\\python\\dataset\\random forest\\my_RF_prediction.csv', index=False)


黄线部分的test 后面为什么跟着[:,1]是用pandas对test进行切片只取test第一列的意思么?但是test的第一列是Q1,仅用test第一列的数据导入函数中,去乞求得到predicted value,似乎说不过去啊。[:, 1] 的意思是什么?


谢谢您的回答

 

Heng Jiang   2018-08-06 19:30



   1个回答 
1

题主可以看看这个问题 如何理解predict_proba的返回值



SofaSofa数据科学社区 DS面经 问答 实战

GuoLinhui   2018-08-06 21:16

Great! Thank u very much! - Heng Jiang   2018-08-07 18:47


  相关主题

时下最流行的模型   1回答

请教一下:关于融合stack   1回答

模型融合问题   2回答

用投票融合(VotingClassifier)的过程中出现问题,求帮助?   1回答

numpy.array转换为图片并显示出来   2回答

python里实现一个简单的决策树   1回答

python sklean中的决策树是用的哪一种决策树算法?   2回答

随机森林中增加树的数量对于偏差和方差的影响   2回答

决策树可以做多元分类吗?   1回答

随机森林是如何计算测试样本的概率的?   1回答

决策树怎么做增量学习或者online学习?   1回答

Extra Tree算法   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!