维数大于样本数的问题-SofaSofa

一般说来数据的维数太大，会有所谓的维数灾难。

如果数据集的维数（列数）远远大于样本数（行数），有什么好的解决办法吗？

Alfred 2017-07-07 11:16

是的，dimensionality curse就是说的这类问题，特征比样本多，p >> n。

这个问题是统计机器学习中的经典问题，也就是降维问题。

你可以使用AIC或BIC来筛选特征。

也可以使用一些正则化模型，比如LASSO来进行降维。

如果使用随机森林或者gbdt的话，即使维数多于样本数，也不会是大问题，而且你可以利用模型返回特征的importance来进行特征选择，起到降维的作用。

MrMath 2017-08-11 22:22

试试lasso以及group lasso

另外naive bayes和cart也很用，虽然没有直接降维，但是模型本身不会太被高维度所影响

abuu 2018-01-09 02:13

如果使用决策树或者随机森林的话，维数即使很大，影响也不会太大吧

whanq 2018-01-13 12:00

维数大于样本数的问题