机器读中文：根据名字判断性别

比赛概述
数据下载
评价方法
提交结果

机器读中文：根据名字判断性别

比赛概述

本比赛为个人练习赛，主要针对于数据新人、尤其文本处理方面的新手进行自我练习、自我提高，与大家切磋。

练习赛时限：2017-07-15 至 2019-07-15

任务类型：自然语言处理、二元分类

背景介绍:
我们每天会接触不同的人，有热情的面孔，也有冰冷的名片。作为一个说着中国话的中国人，我们有着常年累月的积累和对文字的理解，通过名字判断（猜测）性别，并非难事。可是，对于一个冰冷的机器，它能够根据名字判断性别吗？这个练习赛就是根据中文名字（姓已经省略），判断性别

数据来源：
数据来自网络爬虫。出于隐私保护等目的，姓已经被省略。训练数据中含有很少量的杂质（也就是错误的数据点）。标题图片来源：fanfou。

数据下载

数据文件（三个）：
train.txt 训练集，文件大小 1.7mb
test.txt 预测集, 文件大小 0.4mb
sample_submit.csv 提交示例文件大小 0.2mb

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有120000条样本，预测集中有32040条样本。

变量说明：

变量名	解释
id	编号
name	名字（姓已经被隐去）
gender	表示该姓名对应的性别。0表示女生，1表示男生。在test.txt中，这是需要被预测的标签。请注意：名字与性别均来自于网络爬虫，数据可能有杂质或者重复。

评价方法

您提交的结果为每个姓名的预测性别，0代表女性，1代表男性。评价方法为准确率(accuracy)。

准确率的取值范围是0到1。越接近1，说明模型预测的结果越接近真实结果。

$$\text{准确度}=\frac{预测正确数}{总预测数}$$

比如说，真实情况是(小芳：0), (钢：1)，(俏梅：0)，(德华:1)。
你预测结果是(小芳：0), (钢：0)，(俏梅：0)，(德华:1)，那么准确度是3/4=0.75。

提交结果

提交前请确保预测结果的格式与sample_submit.csv中的格式一致，以及提交文件后缀名为csv。文件大小不超过5mb。

您提交的结果为每个姓名的预测性别，0代表女性，1代表男性。

文件名不可以包含中文字符，长度在20字节以内。

排行榜每两小时更新一次。每次更新之前，参赛选手可以多次上传预测结果，但是系统只保留排行榜更新之前最后一次上传结果。

每次比赛为练习赛，所以评测结果是基于全部32040条预测样本。