交通事故理赔审核

交通事故理赔审核


比赛概述


本比赛为个人练习赛,适用于入门二元分类模型,主要针对于数据新人进行自我练习、自我提高,与大家切磋。

练习赛时限:2017-06-03 至 2019-06-03

任务类型:二元分类

背景介绍:
在交通摩擦(事故)发生后,理赔员会前往现场勘察、采集信息,这些信息往往影响着车主是否能够得到保险公司的理赔。训练集数据包括理赔人员在现场对该事故方采集的36条信息,信息已经被编码,以及该事故方最终是否获得理赔。我们的任务是根据这36条信息预测该事故方没有被理赔的概率。

数据来源:
我们低调的合作方——某汽车大数据网站。标题图片来源:搜狐汽车。

   


数据下载


数据文件(三个):
train.csv 训练集,文件大小 15.6mb
test.csv 预测集, 文件大小 6.1mb
sample_submit.csv 提交示例 文件大小 1.4mb

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有200000条样本,预测集中有80000条样本。

变量说明:
变量名 解释
CaseId 案例编号,没有实际意义
Q1 理赔员现场勘察采集的信息,Q1代表第一个问题的信息。信息被编码成数字,数字的大小不代表真实的关系。
Qk 同上,Qk代表第k个问题的信息。一共36个问题。
Evaluation 表示最终审核结果。0表示授予理赔,1表示未通过理赔审核。在test.csv中,这是需要被预测的标签。



评价方法


你的提交结果为每个测试样本未通过审核的概率,也就是Evaluation为1的概率。评价方法为精度-召回曲线下面积(Precision-Recall AUC),以下简称PR-AUC。

PR-AUC的取值范围是0到1。越接近1,说明模型预测的结果越接近真实结果。

精度和召回的定义和计算方式可参考问题:什么是混淆矩阵?中的回答。

PR-AUC的定义可参考问题:精度-召回AUC是什么?

PR-AUC的计算方法可以参考问题:Python里如何计算召回精度AUC?


提交结果


提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。文件大小不超过5mb。

您提交的结果为每个测试样本Evaluation为1的概率。

   文件名不可以包含中文字符,长度在20字节以内。

排行榜每两小时更新一次。每次更新之前,参赛选手可以多次上传预测结果,但是系统只保留排行榜更新之前最后一次上传结果。

   

每次比赛为练习赛,所以评测结果是基于全部80000条预测样本。