对于异常数据的判断?

  统计/机器学习 概率分布 抽样方法 模型验证 开放问题    浏览次数:3182        分享
0

例如在一个实际的问题当中(如交通场景),使用的数据源是由传感器收集到的数据,由于传感器的误差,难免会导致数据集中的一些数据是有问题的,与大部分的样本不一样,但同时,也有些样本可能就是现实中确实真实存在的异常样本(例如某些交通异常情况)。我理解的正确做法应该是,把第一种数据给处理掉,第二种数据给保留,但是如果使用一般的异常检测算法,或者根据分布筛选数据,那么两种异常情况下的样本是不是都被干掉了?这样数据肯定相对规整,预测精度能带来有效提升,但是这不是把现实生活中某些真实的异常样本给去除了吗?

数据集中的样本我们能操控,如果将来将模型部署到真实生活中,那对于那些异常样本的预测效果不就会是很差的了吗?

叙述的有点绕,希望大家能耐心看下我的问题,谢谢!

 

dzzxjl   2018-12-26 16:05



   2个回答 
3

看你需求吧,因为你用大数据本质上就是来通过重复学习大数上的分布得到大概率的pattern,来预测一个新的instance的结果。那么这种情况下本来异常(小概率事件也好,误差也好)本来就应该被预先排除,才能防止你的算法学到噪音啊。如果你的任务本身是关注异常的,那你需要先定义ground truth,啥叫异常。。。或者给出描述异常的公式。。。相似度啊啥的定义。。。(也就是说你需要预先知道什么叫做异常),在这种情况下你需要有另外一个方式来描述误差。。。才能帮你在set up中把两种异常区分开。。。所以你这个问题本身就蛮矛盾的。。。

SofaSofa数据科学社区DS面试题库 DS面经

sz080212   2018-12-26 17:35

2

我觉得你说的这两种异常可能也不太一样,所以多少也许是有办法区分的

比如交通异常下的异常数据应该是在时间上具有一定的连续性、平滑性

仪器误差可能是突发性的,也许前一秒就没有仪器异常,后一面就发生了,这样的话,这个时间序列就不是平滑的或者连续的,是间断跳跃式的

SofaSofa数据科学社区DS面试题库 DS面经

wxw_pku   2019-01-11 16:53



  相关讨论

学习曲线异常分析

如果数据不是正态分布,能用3sigma原则剔除异常值吗?

在训练前数据处理的时候,怎么剔除异常值?

单一变量下的异常检测该怎么做?

kNN用来做异常点检测?

如果不去掉异常值(outlier),会对线性回归模型有什么影响?

离群点、孤立点、异常点有什么区别吗?

如何用K Means做异常检测(outlier anomaly detection)?

关于两个正态总体抽样分布的独立性问题

怎么按照设定概率产生不重复的随机排序?

  随便看看

牛顿法到底是一阶优化算法还是二阶优化算法?

matplotlib画图怎么确保横坐标和纵坐标的单位长度一致?

sklearn训练classifier的时候报错Unknown label type

kNN算法有哪些缺点?

修正R方(adjusted R square)是什么?