决策树模型有什么特点以及如何防止过拟合?

  统计/机器学习 监督式学习    浏览次数:2481        分享
3

如题

 

sjtufrc   2017-09-07 22:21



   2个回答 
5

决策树模型有以下几个特点。

  1. 训练过程比较简单,也就是在实际使用中比较好实现。
  2. 在对一个新的样本进行预测时,时间复杂度是 O(k),这个k是树的深度,也就是树有多少层。因此决策树的预测过程的非常快速而简单。
  3. 决策树在训练过程中也能算出每个特征(feature)的重要程度。
  4. 想比于其它分类算法,比如SVM和逻辑回归,决策树更能简单地应用到多元分类的问题上。
  5. 如不加限制,决策树模型很容易出现过拟合(overfitting)。

针对决策树模型容易过拟合的特点,目前常见的有以下几个性质来进行控制。

  1. 树的深度,也就是树有多少层。
  2. 一个节点能被继续拆分出子节点所需要的包含最少的样本个数。
  3. 最底层节点所需要包含的最少样本个数。

以上三个决策树都相当于它的超参数(hyper-parameter), 也就是我们在训练过程中需要去调整的。但是如果采用随机森林模型,它能够已集成(ensemble) 的方法解决过拟合的问题,因此可以作为实际应用的决策树的很好的替代算法。

SofaSofa数据科学社区DS面试题库 DS面经

数据挖掘工   2017-09-08 05:17

3

决策树可以通过剪枝来避免过拟合。

或者也可以随机生成很多决策树(也就是TreeBagging或者随机森林),这样也能防止过拟合。(随机森林会发生过拟合吗?


SofaSofa数据科学社区DS面试题库 DS面经

雷猴   2017-10-05 10:54



  相关主题

Random Forest 过拟合有什么好办法?   3回答

随机森林会发生过拟合(overfitting)吗?   2回答

线下训练集和测试集防过拟合   1回答

为什么过拟合不好?   8回答

训练集加入噪声防止over fitting还是加剧overfitting?   3回答

unsupervised learning也会over-fitting吗?   2回答

xgboost是如何实现early stopping防止过拟合的?   1回答

最小角回归是天然的LASSO化?正则化参数怎么体现?   3回答

L0 norm 正则是什么意思?   2回答

L1正则化和L2正则化的区别?L1为啥具有稀疏性?   5回答

如何理解“迭代步骤本身就是一个正则化的过程”   2回答

为什么正则项通常都是用L1或者L2,而不是其他的?   2回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!