EDA一般包括哪些步骤?

  统计/机器学习 描述性统计 开放问题    浏览次数: 215
0

拿到数据集之后,一般第一件就是做EDA,请问大家一般自己做EDA都包括哪些步骤?

大家都用了什么样的方法?

 

robertt   2018-09-29 14:57



   2个回答 
4

我一般是这样

第一步

看数据整体信息:有多少行,有多少特征,其中有多少特征是数值的,多少是分类的


对于监督式学习

第二步

看y的分布:如果是回归,看看均值、方差,画画直方图;如果是分类,看看各类的比例,是否平衡

第三步

看特征(x):看看各个特征的含义是什么,每个特征的分布情况如何,有没有missing,有没有outlier,看看有没有信息冗余(两个特征几乎一样)

第四步

看y与x的关系:y和每一个特征的相关系数;如果分类,可以做一元逻辑回归;对于分类变量,可以看看每个分类下y的均值


对于聚类问题,就忽略第二步和第四步

SofaSofa数据科学社区 DS面经 问答 实战

木子周   2018-10-22 23:17

2

接着 @木子周 的步骤写一些我自己的经验和方法:

第三步,还可以看一下有没有单一变量或者接近单一变量的特征,然后删掉这种特征;

第四步,如果是分类模型的话,还可以看一看数据集中每个特征对应不同y值的分布是否相似,如果非常相似的话,根据这种特征可能无法很好的区分y值,也可以考虑删掉;

然后还可以看一下每个特征在训练集和测试集中的分布,如果分布差异很大,很有可能导致在训练集上得到的模型无法很好的预测测试集中的样例,这样的干扰特征应该也要删掉;

最后可以用一些基于树的不同模型,初步跑一些baseline,然后得到特征重要性,对一些重要性高的特征再做一些特征工程。


SofaSofa数据科学社区 DS面经 问答 实战

nlceyes   2018-10-23 15:01



  相关主题

如何向没有统计知识背景的人解释“什么是标准差”?   1回答

为什么样本方差是除以n-1   4回答

估计标准差的标准差?   1回答

标准误和标准差有什么区别?   1回答

统计里的IQR是什么意思?   1回答

Median Absolute Deviation的定义是什么?   1回答

用python计算协方差   1回答

python里计算百分位数   2回答

python中百分位数的逆运算   1回答

线性回归的容忍度Tolerance是什么意思?   1回答

关于方差膨胀因子(VIF)的问题   2回答

怎么理解库克距离(Cook's distance)?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!