足球运动员身价估计

足球运动员身价估计


比赛概述


本比赛为个人练习赛,主要针对于于数据新人进行自我练习、自我提高,与大家切磋。

练习赛时限:2018-03-05 至 2020-03-05

任务类型:回归

背景介绍:
每个足球运动员在转会市场都有各自的价码。本次数据练习的目的是根据球员的各项信息和能力值来预测该球员的市场价值。

数据来源:
FIFA2018。为了公平起见,数据已经进行脱敏加工处理。

   


数据下载


数据文件(三个):
train.csv 训练集,文件大小 2.20mb
test.csv 预测集, 文件大小 1.44kb
sample_submit.csv 提交示例 文件大小 62kb

下载该数据即同意不以商业为目的传播、发布该数据集。

训练集中共有10441条样本,预测集中有7000条样本。每条样本代表一位球员,数据中每个球员有63项属性。数据中含有缺失值。

变量说明:
变量名 解释
id 行编号,没有实际意义
club 该球员所属的俱乐部。该信息已经被编码。
league 该球员所在的联赛。已被编码。
birth_date 生日。格式为月/日/年。
height_cm 身高(厘米)
weight_kg 体重(公斤)
nationality 国籍。已被编码。
potential 球员的潜力。数值变量。
pac 球员速度。数值变量。
sho 射门(能力值)。数值变量。
pas 传球(能力值)。数值变量。
dri 带球(能力值)。数值变量。
def 防守(能力值)。数值变量。
phy 身体对抗(能力值)。数值变量。
international_reputation 国际知名度。数值变量。
skill_moves 技巧动作。数值变量。
weak_foot 非惯用脚的能力值。数值变量。
work_rate_att 球员进攻的倾向。分类变量,Low, Medium, High。
work_rate_def 球员防守的倾向。分类变量,Low, Medium, High。
preferred_foot 惯用脚。1表示右脚、2表示左脚。
crossing 传中(能力值)。数值变量。从crossing到gk_reflexes均表示具体的某项能力的数值。
rw 球员在右边锋位置的能力值。数值变量。
rb 球员在右后卫位置的能力值。数值变量。
st 球员在射手位置的能力值。数值变量。
lw 球员在左边锋位置的能力值。数值变量。
cf 球员在锋线位置的能力值。数值变量。
cam 球员在前腰位置的能力值。数值变量。
cm 球员在中场位置的能力值。数值变量。
cdm 球员在后腰位置的能力值。数值变量。
cb 球员在中后卫的能力值。数值变量。
lb 球员在左后卫置的能力值。数值变量。
gk 球员在守门员的能力值。数值变量。
y 该球员的市场价值(单位为万欧元)。这是要被预测的数值。



评价方法


评价标准为MAE(Mean Absolute Error)。
若真实值为$y=(y_1,y_2,\cdots,y_n)$,模型的预测值为$\hat y=(\hat y_1,\hat y_2,\cdots,\hat y_n)$,那么该模型的MAE计算公式为 $$MAE=\frac{\sum_{i=1}^n|y_i-\hat y_i|}{n}.$$ 例如,真实值$y=(15, 20, 12)$,预测值$\hat y = (17, 24, 9)$,那么这个预测结果的MAE为 $$MAE = \frac{|15-17|+|20-24|+|12-9|}{3}= 3.$$
MAE越小,说明模型预测得越准确。


提交结果


提交前请确保预测结果的格式与sample_submit.csv中的格式一致,以及提交文件后缀名为csv。文件大小不超过5mb。

   文件名不可以包含中文字符,长度在20字节以内。

排行榜每两小时更新一次。每次更新之前,参赛选手可以多次上传预测结果,但是系统只保留排行榜更新之前最后一次上传结果。

   

每次比赛为练习赛,所以评测结果是基于全部7000条预测样本。