训练集中重复的样本需要被删除吗?
重复是指所有特征一样,y也是一样的。
3个回答
如果没特殊要求,那就保持原始数据。数据重复的次数本身也含有信息。在梯度下降优化里,出现两次的数据点,它贡献的梯度也是两倍。
比如bootstrap技术里,resample with replacement,会出现重复数据。
谢谢,你这么一说我想起来了,random forest里必然是有数据重复的。如果数据不是因为有错而导致重复的话,这么看的确应该保留。
-
orz_k
2018-03-16 21:38
看你重复样本多不多,少的话就直接删了,多的话那就多加几列特征“是否重复”,“重复次数”,“在重复中的原始排名”等等
--根据我在腾讯社交广告赛中的经验来看,这个可能是leak 好好利用
SofaSofa数据科学社区DS面试题库 DS面经
加“是否重复”的列,这个思路不错
-
whs_ita
2018-03-19 10:25