机器学习中的维度灾难怎么防止和克服？-SofaSofa

机器学习中的维度灾难怎么防止和克服？

ysz_2020 2020-03-12 20:59

如果n是样本数量，p是数据的维度，当p非常大，或者p远大于n的时候，数据建模问题会变得非常棘手，这个现象就叫做维度灾难(curse of dimensionality)。

总之我们就是要防止p太大了。p在两种情况下会太大：

（1）本来p就很大；（2）经过预处理后p变得很大。

对于（1），我们要使用降维的方法来减小p，常见的方法可以参考除了PCA，还有什么降维的方法？

对于（2），我们要对预处理的过程小心谨慎，尽量不要创造出太多冗余的、无用的特征出来，比较容易出问题的是当我们对一个level很多的categorical feature做one-hot处理时，会有很多的稀疏特征产生，这时候容易造成维度灾难，所以要注意取舍和降维。

LiShanfei 2020-09-29 01:39

机器学习中的维度灾难怎么防止和克服？