怎么理解决策树是模型自己在做interaction？-SofaSofa

线性模型需要人工做interaction，添加相应的变量，但是对于决策树来说，它可以自己做interaction。

请问怎么理解决策树是模型自己在做interaction？

谢谢！

dsjobhunter 2018-03-08 14:11

我说说我的理解，如果不对请轻拍。

就拿binary feature举例吧。

比如你回归预测码农们的工资，一个变量是性别$X_1$，0代表男，1代表女，一个变量是学历$X_2$，0代表本科，1代表研究生。

如果没有interaction term（交互项、交叉项等等翻译），线性模型就是$$y=\beta_0+\beta_1X_1+\beta_2X_2$$

如果是决策树，会生成两个子树，一个子树对于男生做预测、一个子树对于女生做预测。$S_1$就代表是男生并且本科学历，而$S_2$就代表是男生并且研究生学历。这就相当于起到了interaction的作用。

岛歌 2018-03-09 12:16

谢谢回答 - dsjobhunter 2018-03-30 14:05

个人理解树模型虽然自带特征工程效果，其本质在于寻找一条最佳的分类(回归)路径，在以数据为基础的训练过程中，以熵或不纯度的减少为目的，其从输入到模型输出的路径组成一组分类规则，而这组分类规则对应一系列特征的组合，如上述“岛歌”所述。

总结就是决策树的interaction在做特征的联立组合，其确实可以起到减少手工特征工程的工作量，但是类似却不能覆盖如统计特征、时间效应等其他特征因素，这也是为什么决策树的自动特征不能代替特征工程的原因。

dby_freedom 2018-11-15 10:47

怎么理解决策树是模型自己在做interaction？