怎么利用卡方分布来进行特征选择?

  统计/机器学习 概率分布 数据降维 特征选择    浏览次数:283        分享
1

在网上看到说可以利用卡方分布来进行特征选择,请问有了解的吗?可以具体讲讲?

 

zzzz   2019-06-28 23:56



   2个回答 
6

准确来说不是$\chi^2$分布,而是$\chi^2$ test。

$\chi^2$ test是用来检测两个categorical特征的独立性。每个$\chi^2$ test会对应一个$\chi^2$ statistic,这个数值越大说明两个特征的相关性越大。

对于分类问题,我们可以用$\chi^2$ test得到每个categorical特征和y的$\chi^2$ statistic,我们最终只保留$\chi^2$ statistic比较大的特征。这个就是特征选择的过程。

SofaSofa数据科学社区DS面试题库 DS面经

abuu   2019-07-01 23:43

谢谢解答 - zzzz   2019-07-16 08:05
2

也不一定只能是分类问题,对于回归和数值特征也可以,但是我们要先做分箱处理,把连续特征和y进行离散化,然后再用卡方检测进行特征选择。

SofaSofa数据科学社区DS面试题库 DS面经

Willyd   2019-07-06 12:19

谢谢解答 - zzzz   2019-07-16 08:05


  相关主题

t-SNE如何实现降维?   1回答

LDA线性判别分析进行信号分类时如何对训练数据和测试数据降维?   1回答

线性回归或者逻辑回归中常提到的AIC和BIC是什么意思?   1回答

为什么LDA降维最多降到类别数k-1?   0回答

python里怎么实现t-SNE降维?   1回答

递归特征消除(RFE)方法可以用到生存分析数据上吗?   1回答

关于朴素贝叶斯特征工程、特征选择的问题   2回答

低维嵌入(low dimension embedding)是什么意思?   2回答

hashing trick或者feature hashing是什么   1回答

分类变量,进行One hot编码,维度升高,如何处理?   6回答

wrapper特征选择法是什么意思?   1回答

对于组合特征怎么理解?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!