训练集中重复的样本需要被删除吗？-SofaSofa

训练集中重复的样本需要被删除吗？

重复是指所有特征一样，y也是一样的。

orz_k 2018-03-16 19:58

如果没特殊要求，那就保持原始数据。数据重复的次数本身也含有信息。在梯度下降优化里，出现两次的数据点，它贡献的梯度也是两倍。

比如bootstrap技术里，resample with replacement,会出现重复数据。

Zealing 2018-03-16 21:08

谢谢，你这么一说我想起来了，random forest里必然是有数据重复的。如果数据不是因为有错而导致重复的话，这么看的确应该保留。 - orz_k 2018-03-16 21:38

看你重复样本多不多，少的话就直接删了，多的话那就多加几列特征“是否重复”，“重复次数”，“在重复中的原始排名”等等

--根据我在腾讯社交广告赛中的经验来看，这个可能是leak 好好利用

加“是否重复”的列，这个思路不错 - whs_ita 2018-03-19 10:25

如果信息一样，应该是需要保留的，因为重复未必代表冗余，可能说明了发生的频率。

但是如果明显是错误地重复（比如id一样，key一样），那么则应该删掉。

Jiho 2018-03-18 13:31

训练集中重复的样本需要被删除吗？