怎么理解lightgbm中的直方图法选择分裂点?
1个回答
之前普遍采用的方法是对数据集里一个特征所有的值进行排序,然后遍历每个值,从而选取最佳的分裂点。这个做法最大的问题就是速度太慢,因为先要进行排序,然后每次分裂都要遍历所有的点。考虑到现在很多数据集都很大,这样的做法会非常慢。
直方图的方法就是用k个离散点代替原始的数据,这样数据量就大大压缩了。k越大,越接近传统的方法,越容易过拟合;k越小,还原度就越低,越容易欠拟合。
直方图方法的示意图
相关主题
随机森林每次用多少个特征?
2回答
adaboost里的feature importance和随机森林里的feature importance是一回事吗?
1回答
对于树模型,需不需要特征筛选
2回答
怎么理解决策树是模型自己在做interaction?
2回答
gbdt如何对连续特征离散化
1回答
为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?
1回答
决策树可以做多元分类吗?
1回答
Extra Tree算法
1回答
我们谢绝在回答前讲“生动”的故事。
我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。
我们谢绝答非所问。
我们谢绝自己不会、硬要回答。
我们感激每一个用户在编写答案时的努力与付出!