数据泄漏(data leakage)是什么意思?

  统计/机器学习 开放问题
1

什么时候会产生数据泄漏?能举几个具体的例子吗?谢谢!

 

Sophia   2017-12-31 13:02



   2个回答 
3

数据泄露就是说用了不该用的数据,比如

  1. 在训练模型时,利用了测试集的数据、信息
  2. 在当前使用了未来的数据
  3. 在交叉验证进行调参时,使用了验证集的信息参与模型建立

具体说下第三点,比如对特征进行标准化,正确的方法应该是在训练集上标准化,然后应用到验证集上,而非先标准化,再划分验证集。再比如说,要对数据进行pca降维,应该是在训练集上pca,然后作用到验证集上,而非对整个数据集进行pca。通常都忽略了这一点。


Jiho   2018-01-03 23:23

0

楼上的第三点不太理解,标准化的时候,只对训练集标准化,验证集不用标准化?应用到验证集是什么意思呢?

gsscsd   2018-01-06 21:23

就拿标准化来说吧,(数值-均值)/标准差,这个“均值”和“标准差”应该是训练集的“均值”和“标准差”。“数值”是测试集里的数值。 - Jiho   2018-01-07 02:15
好的,谢了,明白了 - gsscsd   2018-01-09 13:52


相关问题

Bagging是什么意思?   1回答

推荐开放数据库   5回答

hyperparameter与parameter的区别?   3回答

在线算法(online algorithm)是什么意思?   2回答

机器学习中的奥卡姆剃刀原理是什么意思   5回答

如何理解VC dimension?   2回答

机器学习算法的鲁棒性是什么意思?   1回答

机器学习+计算机网络   2回答

人类的第一个机器学习算法是什么?   2回答

bias-variance tradeoff是什么意思?   1回答

建立一个预测模型的流程是什么   1回答

机器学习如何快速入门?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!