训练集中重复的样本需要被删除吗?

  统计/机器学习 监督式学习 数据预处理 开放问题    浏览次数: 362
0

训练集中重复的样本需要被删除吗?

重复是指所有特征一样,y也是一样的。


 

orz_k   2018-03-16 19:58



   3个回答 
5

如果没特殊要求,那就保持原始数据。数据重复的次数本身也含有信息。在梯度下降优化里,出现两次的数据点,它贡献的梯度也是两倍。

比如bootstrap技术里,resample with replacement,会出现重复数据。


Zealing   2018-03-16 21:08

谢谢,你这么一说我想起来了,random forest里必然是有数据重复的。如果数据不是因为有错而导致重复的话,这么看的确应该保留。 - orz_k   2018-03-16 21:38
5

看你重复样本多不多,少的话就直接删了,多的话那就多加几列特征“是否重复”,“重复次数”,“在重复中的原始排名”等等

--根据我在腾讯社交广告赛中的经验来看,这个可能是leak 好好利用

机器变得更残忍   2018-03-18 17:35

加“是否重复”的列,这个思路不错 - whs_ita   2018-03-19 10:25
3

如果信息一样,应该是需要保留的,因为重复未必代表冗余,可能说明了发生的频率。

但是如果明显是错误地重复(比如id一样,key一样),那么则应该删掉。


Jiho   2018-03-18 13:31



  相关主题

数据一样,y却不一样的样本该怎么处理?   2回答

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答

python的dataframe如何重新排列行或者列   1回答

怎么求一个数组的移动平均数   1回答

让DataFrame中的行按照某一列元素的绝对值从大到小排列   1回答

特征归一化对K Means有影响吗?   3回答

为什么bias-variance一定会trade off?   2回答

kNN算法有哪些缺点?   6回答

线性回归的变量归一化的问题   1回答

ensemble模型时,bagging和stacking有什么区别?   2回答

建立一个预测模型的流程是什么   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!