在开始做EDA的时候,是用全部数据,还是在训练和测试集划分之后,只在训练集上做EDA?
1个回答
要看EDA的目的了,如果EDA的目的只是看看数据的基本情况,画画图,那么用整个数据集问题做EDA问题不大。
如果EDA的目的是发现有用的变量或者根据变量和y的关系做一些变形,那么用整个数据集做EDA就会有“数据泄露”的风险。这样做出来的模型可能在验证集上会比实际测试集上好一些。
SofaSofa数据科学社区DS面试题库 DS面经在开始做EDA的时候,是用全部数据,还是在训练和测试集划分之后,只在训练集上做EDA?
要看EDA的目的了,如果EDA的目的只是看看数据的基本情况,画画图,那么用整个数据集问题做EDA问题不大。
如果EDA的目的是发现有用的变量或者根据变量和y的关系做一些变形,那么用整个数据集做EDA就会有“数据泄露”的风险。这样做出来的模型可能在验证集上会比实际测试集上好一些。
SofaSofa数据科学社区DS面试题库 DS面经