决策树模型有什么特点以及如何防止过拟合?

  统计/机器学习 监督式学习    浏览次数:9598        分享
3

如题

 

sjtufrc   2017-09-07 22:21



   2个回答 
5

决策树模型有以下几个特点。

  1. 训练过程比较简单,也就是在实际使用中比较好实现。
  2. 在对一个新的样本进行预测时,时间复杂度是 O(k),这个k是树的深度,也就是树有多少层。因此决策树的预测过程的非常快速而简单。
  3. 决策树在训练过程中也能算出每个特征(feature)的重要程度。
  4. 想比于其它分类算法,比如SVM和逻辑回归,决策树更能简单地应用到多元分类的问题上。
  5. 如不加限制,决策树模型很容易出现过拟合(overfitting)。

针对决策树模型容易过拟合的特点,目前常见的有以下几个性质来进行控制。

  1. 树的深度,也就是树有多少层。
  2. 一个节点能被继续拆分出子节点所需要的包含最少的样本个数。
  3. 最底层节点所需要包含的最少样本个数。

以上三个决策树都相当于它的超参数(hyper-parameter), 也就是我们在训练过程中需要去调整的。但是如果采用随机森林模型,它能够已集成(ensemble) 的方法解决过拟合的问题,因此可以作为实际应用的决策树的很好的替代算法。

SofaSofa数据科学社区DS面试题库 DS面经

数据挖掘工   2017-09-08 05:17

3

决策树可以通过剪枝来避免过拟合。

或者也可以随机生成很多决策树(也就是TreeBagging或者随机森林),这样也能防止过拟合。(随机森林会发生过拟合吗?


SofaSofa数据科学社区DS面试题库 DS面经

雷猴   2017-10-05 10:54



  相关讨论

为什么GBDT比RF更容易overfitting?

Random Forest 过拟合有什么好办法?

线下训练集和测试集防过拟合

xgboost是如何实现early stopping防止过拟合的?

为什么过拟合不好?

关于LR过拟合的数据集问题

关于神经网络调整缓解过拟合的问题?

xgboost有正则项为什么还会过拟合呢?

XGBoost损失函数中正则项的理解

训练集加入噪声防止over fitting还是加剧overfitting?

  随便看看

如何获取pyspark DataFrame的行数和列数?

kNN算法有哪些缺点?

tsne被忽视?tsne有什么缺点?

sklearn分类模型中预测结果怎么调整概率的阈值

sklearn模型当中的verbose是什么意思?