怎么理解决策树是模型自己在做interaction?

  统计/机器学习 监督式学习 特征选择    浏览次数: 714
1

线性模型需要人工做interaction,添加相应的变量,但是对于决策树来说,它可以自己做interaction

请问怎么理解决策树是模型自己在做interaction?

谢谢!


相关问题:既然xgboost那么好,线性回归还有存在的价值吗?


 

dsjobhunter   2018-03-08 14:11



   2个回答 
4

我说说我的理解,如果不对请轻拍。

就拿binary feature举例吧。

比如你回归预测码农们的工资,一个变量是性别$X_1$,0代表男,1代表女,一个变量是学历$X_2$,0代表本科,1代表研究生。

如果没有interaction term(交互项、交叉项等等翻译),线性模型就是$$y=\beta_0+\beta_1X_1+\beta_2X_2$$

如果是决策树,会生成两个子树,一个子树对于男生做预测、一个子树对于女生做预测。$S_1$就代表是男生并且本科学历,而$S_2$就代表是男生并且研究生学历。这就相当于起到了interaction的作用。



SofaSofa数据科学社区 DS面经 问答 实战

岛歌   2018-03-09 12:16

谢谢回答 - dsjobhunter   2018-03-30 14:05
3

个人理解树模型虽然自带特征工程效果,其本质在于寻找一条最佳的分类(回归)路径,在以数据为基础的训练过程中,以熵或不纯度的减少为目的,其从输入到模型输出的路径组成一组分类规则,而这组分类规则对应一系列特征的组合,如上述“岛歌”所述。

总结就是决策树的interaction在做特征的联立组合,其确实可以起到减少手工特征工程的工作量,但是类似却不能覆盖如统计特征、时间效应等其他特征因素,这也是为什么决策树的自动特征不能代替特征工程的原因。

SofaSofa数据科学社区 DS面经 问答 实战

dby_freedom   2018-11-15 10:47



  相关主题

对于树模型,需不需要特征筛选   1回答

对于数值特征,决策树是如何决定阈值的?   3回答

为什么决策树中用熵而不是基尼不纯度来作为划分依据?   2回答

随机森林每次用多少个特征?   2回答

Extra Tree算法   1回答

Gradient tree boosting和random forest (随机森林) 有什么区别和联系   1回答

python sklean中的决策树是用的哪一种决策树算法?   2回答

gbdt如何对连续特征离散化   1回答

随机森林给出的变量的Importance是怎么来的   2回答

决策树的熵是什么?怎么用熵来选分叉?   1回答

随机森林中增加树的数量对于偏差和方差的影响   2回答

python里实现一个简单的决策树   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!