2个回答
如果数据量足够大,这类似的数据占比可以忽略的话,可以不考虑影响,这对训练结果带来的影响很小。
但是如果占比较大,就需要修正保留正确的样本。如果不能修正,建议去除。
SofaSofa数据科学社区DS面试题库 DS面经我倒是和极客兔兔的观点有些不同。
我觉得数据相同、目标值不同的样本,自身也是含有信息的。比如10条重复样本,70%是阳性,30%是阴性的情况与20条重复样本,50%是阳性,50%是阴性的情况是不同的。
直接删去会影响到模型的精度。
如果数据量足够大,这类似的数据占比可以忽略的话,可以不考虑影响,这对训练结果带来的影响很小。
但是如果占比较大,就需要修正保留正确的样本。如果不能修正,建议去除。
SofaSofa数据科学社区DS面试题库 DS面经我倒是和极客兔兔的观点有些不同。
我觉得数据相同、目标值不同的样本,自身也是含有信息的。比如10条重复样本,70%是阳性,30%是阴性的情况与20条重复样本,50%是阳性,50%是阴性的情况是不同的。
直接删去会影响到模型的精度。