机器学习中的维度灾难怎么防止和克服?
1个回答
如果n是样本数量,p是数据的维度,当p非常大,或者p远大于n的时候,数据建模问题会变得非常棘手,这个现象就叫做维度灾难(curse of dimensionality)。
总之我们就是要防止p太大了。p在两种情况下会太大:
(1)本来p就很大;(2)经过预处理后p变得很大。
对于(1),我们要使用降维的方法来减小p,常见的方法可以参考除了PCA,还有什么降维的方法?
对于(2),我们要对预处理的过程小心谨慎,尽量不要创造出太多冗余的、无用的特征出来,比较容易出问题的是当我们对一个level很多的categorical feature做one-hot处理时,会有很多的稀疏特征产生,这时候容易造成维度灾难,所以要注意取舍和降维。
SofaSofa数据科学社区DS面试题库 DS面经 相关主题
数据白化是什么意思?
1回答
怎麼將dataframe 欄位 對應到原有的csv檔 而寫入
1回答
python 读json 错误 ValueError: Unexpected character found when decoding array value (2)
0回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!