特征是否也需要Box Cox变换?

  统计/机器学习 概率分布 回归分析 数据预处理    浏览次数:327        分享
0

Box Cox一般用于改善因变量的分布,使残差满足独立性和正态性,提高线性模型的性能。

但是我在kaggle的notebook中,看到一些大神也会对偏态分布的特征进行box cox变换,但我想不明白其中的意义。
看相关文章,大多都是围绕对因变量做变换,没有涉及对特征的box-cox变换的讲解。我调试了一下,发现对特征进行变换,性能甚至略微下降。

所以非常好奇这一点,是否有必要对偏态特征也进行box cox变换?如果是,其中的原理是什么?

希望各位大神们赐教,感激不尽!!!

 

努力成为数据大湿   2020-04-30 21:22



   1个回答 
3

对特征进行变换,也就是所谓的特征工程,是比较复杂的,没有一统天下的理论,都是根据实战得到的。

对于决策树,随机森林,boosting,这类跟树相关的模型,对特征做box cox,对最后的结果基本不会有影响。

对于线性模型来说,我们需要满足特征与目标成线性关系的假设。有时候只调整y的分布,未必能够满足所有的特征,所以有时候也对x进行调整。

还有一种情况是在做pca降维的时候,可以先对特征做一次预处理,把特征转成类似正态,对pca的稳定性也是有帮助的。

SofaSofa数据科学社区DS面试题库 DS面经

strong.man   2020-05-02 14:45

非常感谢您的解答,受教了!! - 努力成为数据大湿   2020-05-03 21:28


  相关主题

python中实现box-cox变换的函数?   1回答

特征归一化后的多项式回归拟合结果   2回答

对进行回归分析之前,如何处理不同类型的变量?   1回答

虚拟变量能否标准化?   2回答

statsmodels里的ols怎么处理分类变量?   1回答

如果数据不是正态分布,能用3sigma原则剔除异常值吗?   3回答

机器学习中,数据的分布是指什么呢?   1回答

X,Y 独立并且,X~U(0,2)以及Y∼U(1,3)。求max(X,Y) 的期望。   2回答

强大数定律和弱大数定律有什么区别?   1回答

两个独立的正态随机变量的乘积服从什么分布?   1回答

长尾分布、肥尾分布、重尾分布?   2回答

log-normal分布实际有什么用?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!