数据一样,y却不一样的样本该怎么处理?

  统计/机器学习 监督式学习 数据预处理    浏览次数: 134
0

有一些样本,数据完全一样,也就是特征是一样的,但是目标值y却不同。

这种样本,该怎么处理,删除还是保留?


类似问题:训练集中重复的样本需要被删除吗?


 

orz_k   2018-03-29 21:03



   2个回答 
3

如果数据量足够大,这类似的数据占比可以忽略的话,可以不考虑影响,这对训练结果带来的影响很小。

但是如果占比较大,就需要修正保留正确的样本。如果不能修正,建议去除。

极客兔兔   2018-03-29 21:16

0

我倒是和极客兔兔的观点有些不同

我觉得数据相同、目标值不同的样本,自身也是含有信息的。比如10条重复样本,70%是阳性,30%是阴性的情况与20条重复样本,50%是阳性,50%是阴性的情况是不同的。

直接删去会影响到模型的精度。


木子周   2018-04-06 11:17



  相关主题

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答

python的dataframe如何重新排列行或者列   1回答

让DataFrame中的行按照某一列元素的绝对值从大到小排列   1回答

怎么求一个数组的移动平均数   1回答

线性回归的变量归一化的问题   1回答

训练集中重复的样本需要被删除吗?   3回答

对进行回归分析之前,如何处理不同类型的变量?   1回答

sklearn OneHotEncoder string类型报错   1回答

决策树、随机森林中的多重共线性问题   3回答

pandas怎么读入tsv格式的数据   1回答

对pandas.DataFrame进行groupby结果中index的问题   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!