EDA步骤中,用全部数据还是只用训练集?

  统计/机器学习 数据预处理 描述性统计    浏览次数: 186
0

在开始做EDA的时候,是用全部数据,还是在训练和测试集划分之后,只在训练集上做EDA?

 

nzsfw   2018-09-17 03:17



   1个回答 
3

要看EDA的目的了,如果EDA的目的只是看看数据的基本情况,画画图,那么用整个数据集问题做EDA问题不大。

如果EDA的目的是发现有用的变量或者根据变量和y的关系做一些变形,那么用整个数据集做EDA就会有“数据泄露”的风险。这样做出来的模型可能在验证集上会比实际测试集上好一些。

SofaSofa数据科学社区 DS面经 问答 实战

matt   2018-09-20 11:34



  相关主题

估计标准差的标准差?   1回答

Median Absolute Deviation的定义是什么?   1回答

统计里的IQR是什么意思?   1回答

标准误和标准差有什么区别?   1回答

为什么样本方差是除以n-1   4回答

python里计算百分位数   2回答

用python计算协方差   1回答

python中百分位数的逆运算   1回答

EDA一般包括哪些步骤?   2回答

如何向没有统计知识背景的人解释“什么是标准差”?   1回答

怎么理解库克距离(Cook's distance)?   1回答

关于方差膨胀因子(VIF)的问题   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!