数据一样,y却不一样的样本该怎么处理?

  统计/机器学习 监督式学习 数据预处理    浏览次数:4037        分享
0

有一些样本,数据完全一样,也就是特征是一样的,但是目标值y却不同。

这种样本,该怎么处理,删除还是保留?


类似问题:训练集中重复的样本需要被删除吗?


 

orz_k   2018-03-29 21:03



   2个回答 
3

如果数据量足够大,这类似的数据占比可以忽略的话,可以不考虑影响,这对训练结果带来的影响很小。

但是如果占比较大,就需要修正保留正确的样本。如果不能修正,建议去除。

SofaSofa数据科学社区DS面试题库 DS面经

极客兔兔   2018-03-29 21:16

2

我倒是和极客兔兔的观点有些不同

我觉得数据相同、目标值不同的样本,自身也是含有信息的。比如10条重复样本,70%是阳性,30%是阴性的情况与20条重复样本,50%是阳性,50%是阴性的情况是不同的。

直接删去会影响到模型的精度。


SofaSofa数据科学社区DS面试题库 DS面经

木子周   2018-04-06 11:17



  相关讨论

离散变量和连续变量可以一起放入机器学习的分类器中吗?

输入变量可以是离散型数据和连续性数据的组合吗?

对于数值型变量模型怎么知道是连续变量还是离散变量?

对连续特征一定要进行分箱处理吗?

数据量太少能不能bootstrap

机器学习中如何将几种度量距离的量进行线性组合

分类特征的目标编码是什么意思?

数据白化是什么意思?

z-score标准化不适用于处理什么样的数据?

什么时候需要对y或者特征进行对数变换?

  随便看看

lightgbm.LGBMModel和lightgbm.LGBMClassifier该用哪个?

dropout rate一般设置多大?

numpy array里怎么用fillna填充nan的值?

用一个骰子生成1到7的随机数?

怎么理解推荐系统中的NDCG?