tsne被忽视?tsne有什么缺点?

  统计/机器学习 无监督学习 数据降维 开放问题 数据可视化    浏览次数:469        分享
1

tsne作为降维方法,效果感觉比pca要好不少,特别是mnist的例子上

但是tsne好像不被重视,课上不讲,很多人也不用,降维都是pca,为什么呢?是有什么明显的缺点吗?

 

我是雷哥   2019-07-25 00:31



   3个回答 
10

我觉得主要有三个大问题:

1)tsne太慢,不适合于大规模计算或者大数据

2)tsne不能对test data做transform。比如说我们对training data进行pca,然后可以利用刚刚得到的pca分解矩阵直接对test data进行变换。但是tsne不行。

3)tsne的结果具有一定的随机性,而不是像pca,结果一致性很好。

SofaSofa数据科学社区DS面试题库 DS面经

kidd23   2019-08-07 10:52

8

除了其他人提到的那些缺陷,tsne的稳健性和一致性不是太好。

1. tsne对超参的设置比较严苛,设置不当,会导致结果很差。

最左是原始的数据,剩下五个是tsne处理后的数据,明显看出在一些参数下,结果并不理想

2. tsne后聚类的大小没有实际意义

最左是原始的数据,蓝色较大,黄色较小。剩下五个是tsne处理后的数据,每簇的大小看起来很随机。

3. tsne后聚类间的距离没有意义

最左是原始的数据,黄色蓝色较近、绿色分隔得比较远。剩下五个是tsne处理后的数据,原图中的距离并没有被保留。

4. 随机噪音在tsne处理之后看起来不像随机噪音

最左是原始的数据,正态分布的随机点。剩下五个是tsne处理后的数据,似乎还能看出各种不同的规律,并不像是完全的杂乱无章。

5. tsne后聚类出现不规律的形状

最左是原始的数据,杂乱无章,没有明显的分布。剩下五个是tsne处理后的数据,出现了各种形状,有的似乎还出现了聚类。

上面种种问题让tsne显得难以驾驭。在工程中,使用得并不广泛。

参考文献:如何高效使用tsne

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-10-08 09:44

3

tsne明显是比pca更高阶的降维算法,要是说缺点的话,tnse占用内存比较大,耗时比pca要长。

SofaSofa数据科学社区DS面试题库 DS面经

京东   2019-08-02 17:14



  相关主题

kNN算法有哪些缺点?   6回答

二阶优化算法比一阶的优化算法比有什么优缺点?   2回答

决策树有哪些缺点?   2回答

相比xgboost,GBDT有什么优势   3回答

K Means算法有哪些缺陷、劣势?   5回答

最小二乘法与最小二乘支持向量回归的优劣   4回答

激活函数ReLU和Sigmoid的优劣对比   4回答

随机森林(random forest)和支持向量机(SVM)各有什么优劣   1回答

在使用PCA降维时,有哪些坑?   6回答

坐标下降法和最小角回归求取L1范数正则化问题时的优劣?   1回答

高维数据应该用什么聚类模型?   4回答

随机投影的实际效果如何?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!