数据泄漏(data leakage)是什么意思?

  统计/机器学习 开放问题    浏览次数:10846        分享
2

什么时候会产生数据泄漏?能举几个具体的例子吗?谢谢!

 

Sophia   2017-12-31 13:02



   2个回答 
7

数据泄露就是说用了不该用的数据,比如

  1. 在训练模型时,利用了测试集的数据、信息
  2. 在当前使用了未来的数据
  3. 在交叉验证进行调参时,使用了验证集的信息参与模型建立

具体说下第三点,比如对特征进行标准化,正确的方法应该是在训练集上标准化,然后应用到验证集上,而非先标准化,再划分验证集。再比如说,要对数据进行pca降维,应该是在训练集上pca,然后作用到验证集上,而非对整个数据集进行pca。通常都忽略了这一点。


SofaSofa数据科学社区DS面试题库 DS面经

Jiho   2018-01-03 23:23

1

楼上的第三点不太理解,标准化的时候,只对训练集标准化,验证集不用标准化?应用到验证集是什么意思呢?

SofaSofa数据科学社区DS面试题库 DS面经

gsscsd   2018-01-06 21:23

就拿标准化来说吧,(数值-均值)/标准差,这个“均值”和“标准差”应该是训练集的“均值”和“标准差”。“数值”是测试集里的数值。 - Jiho   2018-01-07 02:15
好的,谢了,明白了 - gsscsd   2018-01-09 13:52


  相关讨论

ensemble模型时,bagging和stacking有什么区别?

除了线性回归,逻辑回归,线性模型(linear model)包括哪些模型和算法?

机器学习算法的鲁棒性是什么意思?

seq2seq模型有什么应用场景?

机器学习如何快速入门?

函数型数据分析

baseline模型和benchmark模型的差别?

机器学习+计算机网络

机器学习中的奥卡姆剃刀原理是什么意思

few-shot learning是什么意思?

  随便看看

numpy里生成单位矩阵?

micro和macro F1 score分别是什么意思?

把pandas.DataFrame中所有行全部随机排列

PCA降维之前为什么要先标准化?

K-means怎么选K?