交通事故理赔审核

比赛概述
数据下载
评价方法
提交结果

交通事故理赔审核

比赛概述

本比赛为个人练习赛，适用于入门二元分类模型，主要针对于数据新人进行自我练习、自我提高，与大家切磋。

练习赛时限：2017-06-03 至 2019-06-03

任务类型：二元分类

背景介绍:
在交通摩擦（事故）发生后，理赔员会前往现场勘察、采集信息，这些信息往往影响着车主是否能够得到保险公司的理赔。训练集数据包括理赔人员在现场对该事故方采集的36条信息，信息已经被编码，以及该事故方最终是否获得理赔。我们的任务是根据这36条信息预测该事故方没有被理赔的概率。

数据来源：
我们低调的合作方——某汽车大数据网站。标题图片来源：搜狐汽车。

数据下载

数据文件（三个）：
train.csv 训练集，文件大小 15.6mb
test.csv 预测集, 文件大小 6.1mb
sample_submit.csv 提交示例文件大小 1.4mb

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有200000条样本，预测集中有80000条样本。

变量说明：

变量名	解释
CaseId	案例编号，没有实际意义
Q1	理赔员现场勘察采集的信息，Q1代表第一个问题的信息。信息被编码成数字，数字的大小不代表真实的关系。
Qk	同上，Qk代表第k个问题的信息。一共36个问题。
Evaluation	表示最终审核结果。0表示授予理赔，1表示未通过理赔审核。在test.csv中，这是需要被预测的标签。

评价方法

你的提交结果为每个测试样本未通过审核的概率，也就是Evaluation为1的概率。评价方法为精度-召回曲线下面积(Precision-Recall AUC)，以下简称PR-AUC。

PR-AUC的取值范围是0到1。越接近1，说明模型预测的结果越接近真实结果。

精度和召回的定义和计算方式可参考问题：什么是混淆矩阵？中的回答。

PR-AUC的定义可参考问题：精度-召回AUC是什么？

PR-AUC的计算方法可以参考问题：Python里如何计算召回精度AUC？

提交结果

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。文件大小不超过5mb。

您提交的结果为每个测试样本Evaluation为1的概率。

文件名不可以包含中文字符，长度在20字节以内。

排行榜每两小时更新一次。每次更新之前，参赛选手可以多次上传预测结果，但是系统只保留排行榜更新之前最后一次上传结果。

每次比赛为练习赛，所以评测结果是基于全部80000条预测样本。