怎么理解决策树是模型自己在做interaction?

  统计/机器学习 监督式学习 特征选择    浏览次数:5856        分享
2

线性模型需要人工做interaction,添加相应的变量,但是对于决策树来说,它可以自己做interaction

请问怎么理解决策树是模型自己在做interaction?

谢谢!


相关问题:既然xgboost那么好,线性回归还有存在的价值吗?


 

dsjobhunter   2018-03-08 14:11



   2个回答 
6

我说说我的理解,如果不对请轻拍。

就拿binary feature举例吧。

比如你回归预测码农们的工资,一个变量是性别$X_1$,0代表男,1代表女,一个变量是学历$X_2$,0代表本科,1代表研究生。

如果没有interaction term(交互项、交叉项等等翻译),线性模型就是$$y=\beta_0+\beta_1X_1+\beta_2X_2$$

如果是决策树,会生成两个子树,一个子树对于男生做预测、一个子树对于女生做预测。$S_1$就代表是男生并且本科学历,而$S_2$就代表是男生并且研究生学历。这就相当于起到了interaction的作用。



SofaSofa数据科学社区DS面试题库 DS面经

岛歌   2018-03-09 12:16

谢谢回答 - dsjobhunter   2018-03-30 14:05
4

个人理解树模型虽然自带特征工程效果,其本质在于寻找一条最佳的分类(回归)路径,在以数据为基础的训练过程中,以熵或不纯度的减少为目的,其从输入到模型输出的路径组成一组分类规则,而这组分类规则对应一系列特征的组合,如上述“岛歌”所述。

总结就是决策树的interaction在做特征的联立组合,其确实可以起到减少手工特征工程的工作量,但是类似却不能覆盖如统计特征、时间效应等其他特征因素,这也是为什么决策树的自动特征不能代替特征工程的原因。

SofaSofa数据科学社区DS面试题库 DS面经

dby_freedom   2018-11-15 10:47



  相关讨论

对于树模型,需不需要特征筛选

随机森林给出的变量的Importance是怎么来的

GBDT的数据在使用前有什么需要注意的吗?

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?

随机森林每次用多少个特征?

对于数值特征,决策树是如何决定阈值的?

adaboost里的feature importance和随机森林里的feature importance是一回事吗?

怎么理解lightgbm中的直方图法选择分裂点?

使用lightgbm,训练前对数据特征赋予权重是否对结果有影响

gbdt如何对连续特征离散化

  随便看看

xgboost的gblinear是什么意思?

什么是SMOTE sampling方法?

numpy里的无穷大np.inf到底是多大呢?

pandas.DataFrame的index重新排列(从0开始)

python里怎么表示科学计数法?