tsne作为降维方法,效果感觉比pca要好不少,特别是mnist的例子上
但是tsne好像不被重视,课上不讲,很多人也不用,降维都是pca,为什么呢?是有什么明显的缺点吗?
3个回答
除了其他人提到的那些缺陷,tsne的稳健性和一致性不是太好。
1. tsne对超参的设置比较严苛,设置不当,会导致结果很差。
最左是原始的数据,剩下五个是tsne处理后的数据,明显看出在一些参数下,结果并不理想
2. tsne后聚类的大小没有实际意义
最左是原始的数据,蓝色较大,黄色较小。剩下五个是tsne处理后的数据,每簇的大小看起来很随机。
3. tsne后聚类间的距离没有意义
最左是原始的数据,黄色蓝色较近、绿色分隔得比较远。剩下五个是tsne处理后的数据,原图中的距离并没有被保留。
4. 随机噪音在tsne处理之后看起来不像随机噪音
最左是原始的数据,正态分布的随机点。剩下五个是tsne处理后的数据,似乎还能看出各种不同的规律,并不像是完全的杂乱无章。
5. tsne后聚类出现不规律的形状
最左是原始的数据,杂乱无章,没有明显的分布。剩下五个是tsne处理后的数据,出现了各种形状,有的似乎还出现了聚类。
上面种种问题让tsne显得难以驾驭。在工程中,使用得并不广泛。
参考文献:如何高效使用tsne
SofaSofa数据科学社区DS面试题库 DS面经我觉得主要有三个大问题:
1)tsne太慢,不适合于大规模计算或者大数据
2)tsne不能对test data做transform。比如说我们对training data进行pca,然后可以利用刚刚得到的pca分解矩阵直接对test data进行变换。但是tsne不行。
3)tsne的结果具有一定的随机性,而不是像pca,结果一致性很好。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
kNN算法有哪些缺点?
6回答
决策树有哪些缺点?
2回答
随机森林(random forest)和支持向量机(SVM)各有什么优劣
1回答
在使用PCA降维时,有哪些坑?
6回答
坐标下降法和最小角回归求取L1范数正则化问题时的优劣?
1回答
高维数据应该用什么聚类模型?
4回答
随机投影的实际效果如何?
1回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!