关于地震数据预处理的几点疑问。

  板凳区 Sofa竞赛8    浏览次数:3842        分享
0

我应该是第一个提交数据集吧,当时是下午在公司看到,快下班了,就直接处理里面文本转换成离散的数字label

然后u盘复制回家随便找了个模型跑了下0.74(0.74是排行榜上的,感觉那个测评指标自己写轮子有点麻烦,懒就没写,测试集直接用准确率了)。

今天闲了,研究了一下测试集,发现几个有意思东西,但也没想到解决对策。

首先是震后楼层会比震前楼层多,我没搞明白...........(train里有,test也有)

其次是震后高度比震前高度高(难道是地震把地壳顶起来了?,不过测楼不是应该只关心地表高度吗)

或者说都是错误数据?

其次就是震前高度,有99(100多个),还有两个一百多米,这个应该是错误值了吧,不过又一看,码的,震后都是0米,修复建议都是重建,。。。。。。。。。难道确实是太高了???

wtf!

 

陈十一   2018-05-10 16:25



   3个回答 
0

我单纯地觉得只是数据脏,noise多

SofaSofa数据科学社区DS面试题库 DS面经

黄前志   2018-05-10 22:31

0

在公司里玩这个,也是服了你啊

SofaSofa数据科学社区DS面试题库 DS面经

黄前志   2018-05-10 22:36

偷着来的,我现在在一家传统企业扣表,做指标,搞代码要趁被人不注意,不然会被认为不务正业→_→ - 陈十一   2018-05-11 09:11
0

是的哦

SofaSofa数据科学社区DS面试题库 DS面经

firstqian   2018-08-11 15:23



  相关讨论

地震测评指标

有人知道该数据是哪个国家的吗

很想知道该数据是哪个国家的

如何评价大数据的未来?

使用深度学习进行图像分类

作为一个ML的博士应该怎么去怎么找文献?

求教一下:怎么进阶

有偿!!如何写一个restful api

大家跑模型都用的什么牌子的笔记本

有没有赚外快的方法啊

  随便看看

机器学习算法的鲁棒性是什么意思?

如何在numpy array尾部增加一行

ARIMA模型中的三个参数(p, d, q)都是什么意思?

随机森林会发生过拟合(overfitting)吗?

如何度量一个分布长尾的程度?