使用lightgbm,训练前对数据特征赋予权重是否对结果有影响

  统计/机器学习 监督式学习 数据预处理 特征选择 Python    浏览次数:4712        分享
1
8000个7特征的样本数据,对第四列的特征乘上不同的系数,为什么对于得到的训练结果没有影响
 

classifier   2020-02-11 21:15



   1个回答 
2

对于树模型(决策树、随机森林、xgboost,lightgbm),对特征进行保序变换是不会影响模型结果的。

因为树在寻找到特征分裂点之后,小于它的样本都被放在左子节点,大于它的样本都在右子节点。你对一个特征做了乘法运算,这个是线性运算,自然也是保序的,也就是每个元素的大小顺序没有改变,所以训练出来的模型自然没有变化。

SofaSofa数据科学社区DS面试题库 DS面经

我小宋   2020-02-12 15:01

明白了,谢谢! - classifier   2020-02-12 17:30


  相关讨论

gbdt如何对连续特征离散化

adaboost里的feature importance和随机森林里的feature importance是一回事吗?

随机森林给出的变量的Importance是怎么来的

GBDT的数据在使用前有什么需要注意的吗?

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?

怎么理解决策树是模型自己在做interaction?

对于数值特征,决策树是如何决定阈值的?

随机森林每次用多少个特征?

对于树模型,需不需要特征筛选

怎么理解lightgbm中的直方图法选择分裂点?

  随便看看

随机森林会发生过拟合(overfitting)吗?

用户人群分层分析的RFM模型是什么?

分类特征的目标编码是什么意思?

向量梯度下降优化的最佳步长?

keras里sparse_categorical_crossentropy和categorical_crossentropy什么不同?