在训练前数据处理的时候,怎么剔除异常值?

  统计/机器学习 数据预处理    浏览次数: 203
1

在训练前数据处理的时候,怎么剔除异常值?

有哪些常用的手段?

 

nzsfw   2018-10-12 12:11



   2个回答 
4
  • 删除含有异常值的记录:直接将含有异常值的记录删除;
  • 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理;
  • 平均值修正:可用前后两个观测值的平均值修正该异常值;
  • 不处理:直接在具有异常值的数据集上进行数据挖掘;
SofaSofa数据科学社区 DS面经 问答 实战

libinx   2018-10-15 01:17

2

@libinx  主要说了怎么处理异常值

我说下怎么发现异常值,一般要么是根据逻辑、常识,要么是根据实际数据分布

比如年龄作为特征一般在0到120之间,如果超过这个范围了肯定是异常了

根据数据分布的话通常是用IQR来判断,如果一个数和均值的差超过1.5倍的IQR了,就算是异常

SofaSofa数据科学社区 DS面经 问答 实战

wxw_pku   2018-10-21 10:16



  相关主题

在数据预处理阶段,特征的标准化有哪些方法?   1回答

dummy variable是n个还是n-1个   2回答

z-score标准化不适用于处理什么样的数据?   1回答

什么时候需要对y或者特征进行对数变换?   1回答

怎么求一个数组的移动平均数   1回答

python的dataframe如何重新排列行或者列   1回答

让DataFrame中的行按照某一列元素的绝对值从大到小排列   1回答

怎麼將dataframe 欄位 對應到原有的csv檔 而寫入   1回答

怎么把dataframe的一列转成整数类型   2回答

python中怎么把千位分隔符以及货币符号去掉转成数值形式?   1回答

对于数值型变量模型怎么知道是连续变量还是离散变量?   2回答

数据一样,y却不一样的样本该怎么处理?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!