EDA步骤中,用全部数据还是只用训练集?

  统计/机器学习 数据预处理 描述性统计    浏览次数: 301
0

在开始做EDA的时候,是用全部数据,还是在训练和测试集划分之后,只在训练集上做EDA?

 

nzsfw   2018-09-17 03:17



   1个回答 
3

要看EDA的目的了,如果EDA的目的只是看看数据的基本情况,画画图,那么用整个数据集问题做EDA问题不大。

如果EDA的目的是发现有用的变量或者根据变量和y的关系做一些变形,那么用整个数据集做EDA就会有“数据泄露”的风险。这样做出来的模型可能在验证集上会比实际测试集上好一些。

SofaSofa数据科学社区 DS面经 问答 实战

matt   2018-09-20 11:34



  相关主题

估计标准差的标准差?   1回答

Median Absolute Deviation的定义是什么?   1回答

标准误和标准差有什么区别?   1回答

为什么样本方差是除以n-1   4回答

统计里的IQR是什么意思?   2回答

python中百分位数的逆运算   1回答

python里计算百分位数   2回答

z-score标准化不适用于处理什么样的数据?   1回答

什么时候需要对y或者特征进行对数变换?   1回答

在数据预处理阶段,特征的标准化有哪些方法?   1回答

在训练前数据处理的时候,怎么剔除异常值?   2回答

dummy variable是n个还是n-1个   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!