用pca对数据集降维时为什么一定要训练集和测试集?

  统计/机器学习 数据降维    浏览次数:1775        分享
0

用pca对数据集降维时为什么一定要训练集和测试集?

为什么数据不能合在一起做pca降维呢?

 

Raymond   2020-02-25 23:35



   2个回答 
2

如果合一起做PCA,测试集里的信息会泄露到PCA中。打个比方,训练集是黄色,测试集是蓝色,合一起PCA会是绿色。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2020-02-25 23:56

1

因为会造成数据泄露啊,训练集中不应该含有测试集的信息。

SofaSofa数据科学社区DS面试题库 DS面经

MangoCoke   2020-02-27 23:02



  相关主题

PCA算法是一种保距算法吗?   1回答

一个关于PCA与eigenvector的问题   2回答

PCA会降低分类器的精度吗?   4回答

PCA与非负矩阵分解(NMF)的异同?   0回答

利用PCA降维,降到几维比较合适?   1回答

Truncated SVD和PCA有什么区别吗?   1回答

PCA降维之前为什么要先标准化?   4回答

除了PCA,还有什么降维的方法?   11回答

为什么PCA被称作非监督式学习?   2回答

PCA降维中的特征值和特征向量   2回答

PCA需要正态性作为提前假设吗?   1回答

PCA的目标函数   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!