数据泄漏(data leakage)是什么意思?

  统计/机器学习 开放问题    浏览次数: 1114
2

什么时候会产生数据泄漏?能举几个具体的例子吗?谢谢!

 

Sophia   2017-12-31 13:02



   2个回答 
5

数据泄露就是说用了不该用的数据,比如

  1. 在训练模型时,利用了测试集的数据、信息
  2. 在当前使用了未来的数据
  3. 在交叉验证进行调参时,使用了验证集的信息参与模型建立

具体说下第三点,比如对特征进行标准化,正确的方法应该是在训练集上标准化,然后应用到验证集上,而非先标准化,再划分验证集。再比如说,要对数据进行pca降维,应该是在训练集上pca,然后作用到验证集上,而非对整个数据集进行pca。通常都忽略了这一点。


Jiho   2018-01-03 23:23

1

楼上的第三点不太理解,标准化的时候,只对训练集标准化,验证集不用标准化?应用到验证集是什么意思呢?

gsscsd   2018-01-06 21:23

就拿标准化来说吧,(数值-均值)/标准差,这个“均值”和“标准差”应该是训练集的“均值”和“标准差”。“数值”是测试集里的数值。 - Jiho   2018-01-07 02:15
好的,谢了,明白了 - gsscsd   2018-01-09 13:52


  相关主题

如何学习机器学习?有没有好的经验。   1回答

hyperparameter与parameter的区别?   3回答

建立一个预测模型的流程是什么   1回答

机器学习算法中有哪些用到了贪婪算法的思想?   5回答

推荐开放数据库   5回答

baseline模型和benchmark模型的差别?   1回答

人类的第一个机器学习算法是什么?   2回答

如何理解VC dimension?   2回答

在线算法(online algorithm)是什么意思?   2回答

ensemble模型时,bagging和stacking有什么区别?   2回答

机器学习如何快速入门?   1回答

bias-variance tradeoff是什么意思?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!