对于异常数据的判断?

  统计/机器学习 概率分布 抽样方法 模型验证 开放问题    浏览次数:242        分享
0

例如在一个实际的问题当中(如交通场景),使用的数据源是由传感器收集到的数据,由于传感器的误差,难免会导致数据集中的一些数据是有问题的,与大部分的样本不一样,但同时,也有些样本可能就是现实中确实真实存在的异常样本(例如某些交通异常情况)。我理解的正确做法应该是,把第一种数据给处理掉,第二种数据给保留,但是如果使用一般的异常检测算法,或者根据分布筛选数据,那么两种异常情况下的样本是不是都被干掉了?这样数据肯定相对规整,预测精度能带来有效提升,但是这不是把现实生活中某些真实的异常样本给去除了吗?

数据集中的样本我们能操控,如果将来将模型部署到真实生活中,那对于那些异常样本的预测效果不就会是很差的了吗?

叙述的有点绕,希望大家能耐心看下我的问题,谢谢!

 

dzzxjl   2018-12-26 16:05



   2个回答 
3

看你需求吧,因为你用大数据本质上就是来通过重复学习大数上的分布得到大概率的pattern,来预测一个新的instance的结果。那么这种情况下本来异常(小概率事件也好,误差也好)本来就应该被预先排除,才能防止你的算法学到噪音啊。如果你的任务本身是关注异常的,那你需要先定义ground truth,啥叫异常。。。或者给出描述异常的公式。。。相似度啊啥的定义。。。(也就是说你需要预先知道什么叫做异常),在这种情况下你需要有另外一个方式来描述误差。。。才能帮你在set up中把两种异常区分开。。。所以你这个问题本身就蛮矛盾的。。。

SofaSofa数据科学社区 DS面经 问答 实战

sz080212   2018-12-26 17:35

2

我觉得你说的这两种异常可能也不太一样,所以多少也许是有办法区分的

比如交通异常下的异常数据应该是在时间上具有一定的连续性、平滑性

仪器误差可能是突发性的,也许前一秒就没有仪器异常,后一面就发生了,这样的话,这个时间序列就不是平滑的或者连续的,是间断跳跃式的

SofaSofa数据科学社区 DS面经 问答 实战

wxw_pku   2019-01-11 16:53



  相关主题

关于两个正态总体抽样分布的独立性问题   1回答

cooks距离是什么?有什么含义?怎么计算?   1回答

bootstrap 一般用在哪些方面   1回答

两阶段抽样和分层抽样是一回事吗?   1回答

Jackknife vs Bootstrap   1回答

自助法(bootstrap)的0.632是怎么来的?   1回答

parametric bootstrap和nonparametric bootstrap的区别是什么?   1回答

滚雪球抽样算法的实现   0回答

蓄水池抽样算法的问题   1回答

python对给定的集合进行有放回抽样?   2回答

python产生一个随机置换?   1回答

怎么判断训练集和测试集是同一个分布?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!