用pca对数据集降维时为什么一定要训练集和测试集?

  统计/机器学习 数据降维    浏览次数:5914        分享
0

用pca对数据集降维时为什么一定要训练集和测试集?

为什么数据不能合在一起做pca降维呢?

 

Raymond   2020-02-25 23:35



   2个回答 
2

如果合一起做PCA,测试集里的信息会泄露到PCA中。打个比方,训练集是黄色,测试集是蓝色,合一起PCA会是绿色。

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2020-02-25 23:56

1

因为会造成数据泄露啊,训练集中不应该含有测试集的信息。

SofaSofa数据科学社区DS面试题库 DS面经

MangoCoke   2020-02-27 23:02



  相关讨论

Truncated SVD和PCA有什么区别吗?

PCA降维之前为什么要先标准化?

PCA会降低分类器的精度吗?

主成分分析法(PCA)算是黑盒算法吗?

PCA算法是一种保距算法吗?

利用PCA降维,降到几维比较合适?

sklearn.decomposition.PCA方法中fit, fit_transform, transform应该怎么用

sklearn pca 数据降维结果不一致

为什么PCA被称作非监督式学习?

PCA与非负矩阵分解(NMF)的异同?

  随便看看

AB实验的哈希分桶技术是什么意思?

为什么矩阵的二范数和向量的二范数的定义不同?

Data Application Lab怎么样?

怎么对2维的numpy array取整?

序列的autocorrelation(自相关系数)的计算公式