使用lightgbm,训练前对数据特征赋予权重是否对结果有影响

  统计/机器学习 监督式学习 数据预处理 特征选择 Python    浏览次数:259        分享
1
8000个7特征的样本数据,对第四列的特征乘上不同的系数,为什么对于得到的训练结果没有影响
 

classifier   2020-02-11 21:15



   1个回答 
2

对于树模型(决策树、随机森林、xgboost,lightgbm),对特征进行保序变换是不会影响模型结果的。

因为树在寻找到特征分裂点之后,小于它的样本都被放在左子节点,大于它的样本都在右子节点。你对一个特征做了乘法运算,这个是线性运算,自然也是保序的,也就是每个元素的大小顺序没有改变,所以训练出来的模型自然没有变化。

SofaSofa数据科学社区DS面试题库 DS面经

我小宋   2020-02-12 15:01

明白了,谢谢! - classifier   2020-02-12 17:30


  相关主题

gbdt如何对连续特征离散化   1回答

对于数值特征,决策树是如何决定阈值的?   3回答

怎么理解决策树是模型自己在做interaction?   2回答

随机森林每次用多少个特征?   2回答

为什么特征重要性约大,在决策树里分裂的顺序却是越靠后呢?   1回答

决策树、随机森林中的多重共线性问题   3回答

随机森林给出的变量的Importance是怎么来的   2回答

随机森林的模型一般都很大么?   1回答

adaboost里的feature importance和随机森林里的feature importance是一回事吗?   1回答

对于树模型,需不需要特征筛选   2回答

决策树是如何得到量化的概率,不只是0或1的标签?   2回答

怎么理解RandomForest中的max_features?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!