关于朴素贝叶斯特征工程、特征选择的问题

  统计/机器学习 贝叶斯 监督式学习 数据降维 特征选择    浏览次数: 610
1

我想用朴素贝叶斯做二元分类,大概有200个特征。对于朴素贝叶斯分类器,有什么好的特征选择的方法或者特征工程的方法?

 

想当小五哥   2017-06-08 09:53



   2个回答 
4

关于特征筛选

首先建议做成对的相关系数计算,如果这一对特征的相关系数大于某个阈值,就删除其中一个。正如另外一个答案讲的,朴素贝叶斯需要特征独立性假设。

其次还可以考虑backward stepwise特征选择,一开始用全部特征,然后去遍历每个特征,选一个最差的特征删掉,然后反复进行,直到保留适当数量的特征。这个要根据你的评价metric来决定的。


关于特征工程

数值变量应该进行离散化处理。

此外还要考虑到零概率的特征,这个要做laplace平滑


Arsjun   2018-02-05 13:46

2

你有200个特征,其实根本就不适合用naive bayes。因为naive bayes要求特征是独立的,你有这么多特征,怎么可能都是独立的。

建议你换个方法。

如果非要用naive bayes,那你先用pca降维吧


山中人   2018-02-05 01:27



  相关主题

贝叶斯网络和朴素贝叶斯有什么区别?   1回答

如何用python实现贝叶斯网络优化lightgbm超参数?   2回答

朴素贝叶斯中的朴素是什么意思?   1回答

置信网络和贝叶斯网络是一回事吗?   1回答

用sklearn朴素贝叶斯返回预测概率   2回答

sklearn朴素贝叶斯分类里GaussianNB和BernoulliNB的区别?   2回答

朴素贝叶斯可以用来做回归吗?   2回答

laplace光滑什么意思   1回答

t-SNE如何实现降维?   1回答

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?   1回答

马尔可夫蒙特卡洛方法(MCMC)到底是什么呀?   1回答

python里怎么实现t-SNE降维?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!