EDA步骤中,用全部数据还是只用训练集?

  统计/机器学习 数据预处理 描述性统计    浏览次数:3143        分享
0

在开始做EDA的时候,是用全部数据,还是在训练和测试集划分之后,只在训练集上做EDA?

 

nzsfw   2018-09-17 03:17



   1个回答 
3

要看EDA的目的了,如果EDA的目的只是看看数据的基本情况,画画图,那么用整个数据集问题做EDA问题不大。

如果EDA的目的是发现有用的变量或者根据变量和y的关系做一些变形,那么用整个数据集做EDA就会有“数据泄露”的风险。这样做出来的模型可能在验证集上会比实际测试集上好一些。

SofaSofa数据科学社区DS面试题库 DS面经

matt   2018-09-20 11:34



  相关讨论

标准化、归一化的区别是什么?

为什么说中位数比平均数更稳健?

Median Absolute Deviation的定义是什么?

统计学中的自变量和因变量分别是什么意思?

标准误和标准差有什么区别?

统计里的IQR是什么意思?

如果已知数据的四分位数和中位数,我能不能用matplotlib直接绘制箱形图?

为什么样本方差是除以n-1

估计标准差的标准差?

python中百分位数的逆运算

  随便看看

95%置信区间的正确理解

numpy.full这个函数有什么用?

如果样本不是正态分布,还能用t-test或者z-test吗?

怎么提取pandas dataframe中某一列每个字符串的前n个字符?

假设检验中的p值是什么意思?为什么越小越好?