训练集中重复的样本需要被删除吗?

  统计/机器学习 监督式学习 数据预处理 开放问题    浏览次数:9658        分享
0

训练集中重复的样本需要被删除吗?

重复是指所有特征一样,y也是一样的。


 

orz_k   2018-03-16 19:58



   3个回答 
6

如果没特殊要求,那就保持原始数据。数据重复的次数本身也含有信息。在梯度下降优化里,出现两次的数据点,它贡献的梯度也是两倍。

比如bootstrap技术里,resample with replacement,会出现重复数据。


SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-03-16 21:08

谢谢,你这么一说我想起来了,random forest里必然是有数据重复的。如果数据不是因为有错而导致重复的话,这么看的确应该保留。 - orz_k   2018-03-16 21:38
6

看你重复样本多不多,少的话就直接删了,多的话那就多加几列特征“是否重复”,“重复次数”,“在重复中的原始排名”等等

--根据我在腾讯社交广告赛中的经验来看,这个可能是leak 好好利用

SofaSofa数据科学社区DS面试题库 DS面经

机器变得更残忍   2018-03-18 17:35

加“是否重复”的列,这个思路不错 - whs_ita   2018-03-19 10:25
3

如果信息一样,应该是需要保留的,因为重复未必代表冗余,可能说明了发生的频率。

但是如果明显是错误地重复(比如id一样,key一样),那么则应该删掉。


SofaSofa数据科学社区DS面试题库 DS面经

Jiho   2018-03-18 13:31



  相关讨论

为什么说非平衡(倾斜)的数据不好?

一个post网页爬取问题(爬取城市数据)

%%timeit结果解释

拟合数据的Z-score规范化怎么进行操作?

对连续特征一定要进行分箱处理吗?

输入变量可以是离散型数据和连续性数据的组合吗?

样本权重大小不同时,用什么分类算法比较合适?

对于数值型变量模型怎么知道是连续变量还是离散变量?

有没有可以自动请求特征取值的模型,最终实现分类?

数据一样,y却不一样的样本该怎么处理?

  随便看看

多个独立同分布的均匀随机变量的最小值的期望是多少?

如何在numpy array尾部增加一行

opencv里waitkey和destroyAllWindows有什么用?

软聚类,硬聚类?

sklearn r2_score返回负数