全部问题问题热门未解答所有标签标签收藏收藏我要提问

数据一样，y却不一样的样本该怎么处理？

统计/机器学习监督式学习数据预处理浏览次数：4037 分享

二维码

手机扫描二维码

机器学习面试也能刷题？

有一些样本，数据完全一样，也就是特征是一样的，但是目标值y却不同。

这种样本，该怎么处理，删除还是保留？

类似问题：训练集中重复的样本需要被删除吗？

orz_k 2018-03-29 21:03

2个回答

如果数据量足够大，这类似的数据占比可以忽略的话，可以不考虑影响，这对训练结果带来的影响很小。

但是如果占比较大，就需要修正保留正确的样本。如果不能修正，建议去除。

SofaSofa数据科学社区 DS面试题库 DS面经

极客兔兔 2018-03-29 21:16

我倒是和极客兔兔的观点有些不同。

我觉得数据相同、目标值不同的样本，自身也是含有信息的。比如10条重复样本，70%是阳性，30%是阴性的情况与20条重复样本，50%是阳性，50%是阴性的情况是不同的。

直接删去会影响到模型的精度。

SofaSofa数据科学社区 DS面试题库 DS面经

木子周 2018-04-06 11:17

相关讨论

离散变量和连续变量可以一起放入机器学习的分类器中吗？

输入变量可以是离散型数据和连续性数据的组合吗？

对于数值型变量模型怎么知道是连续变量还是离散变量？

对连续特征一定要进行分箱处理吗？

数据量太少能不能bootstrap

机器学习中如何将几种度量距离的量进行线性组合

分类特征的目标编码是什么意思？

数据白化是什么意思？

z-score标准化不适用于处理什么样的数据？

什么时候需要对y或者特征进行对数变换？

随便看看

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个？

dropout rate一般设置多大？

numpy array里怎么用fillna填充nan的值？

用一个骰子生成1到7的随机数？

怎么理解推荐系统中的NDCG？