在训练前数据处理的时候,怎么剔除异常值?

  统计/机器学习 数据预处理    浏览次数:4202        分享
1

在训练前数据处理的时候,怎么剔除异常值?

有哪些常用的手段?

 

nzsfw   2018-10-12 12:11



   2个回答 
5
  • 删除含有异常值的记录:直接将含有异常值的记录删除;
  • 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理;
  • 平均值修正:可用前后两个观测值的平均值修正该异常值;
  • 不处理:直接在具有异常值的数据集上进行数据挖掘;
SofaSofa数据科学社区DS面试题库 DS面经

libinx   2018-10-15 01:17

3

@libinx  主要说了怎么处理异常值

我说下怎么发现异常值,一般要么是根据逻辑、常识,要么是根据实际数据分布

比如年龄作为特征一般在0到120之间,如果超过这个范围了肯定是异常了

根据数据分布的话通常是用IQR来判断,如果一个数和均值的差超过1.5倍的IQR了,就算是异常

SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2018-10-21 10:16



  相关讨论

离群点、孤立点、异常点有什么区别吗?

如果不去掉异常值(outlier),会对线性回归模型有什么影响?

学习曲线异常分析

单一变量下的异常检测该怎么做?

如果数据不是正态分布,能用3sigma原则剔除异常值吗?

kNN用来做异常点检测?

如何用K Means做异常检测(outlier anomaly detection)?

对于异常数据的判断?

auto-encoder异常检测的问题,无标签情况下怎么进行预测?

数据白化是什么意思?

  随便看看

python sklearn模型中random_state参数的意义

Python的Jupyter Notebook环境下怎么制作一个动态显示的进度条?

随机平均梯度法(Stochasitc Average Gradient)和随机梯度下降(SGD)有什么区别

用一个骰子生成1到7的随机数?

python产生服从常用概率分布的随机数