对于数值特征，决策树是如何决定阈值的？-SofaSofa

对于一个二元特征，决策树很自然地进行分叉，一个树枝的条件是该特征为0，另一个树枝是该特征为1。

对于一个数值特征，决策树的节点分叉通常是，如果x < 某个数，进入这个子决策树，如果x >= 某个数，进入另外一个子决策树。我想知道的是，对于数值变量这个阈值（上面的“某个”）是如何确定的呢？

谢谢！

Gavin 2017-09-26 13:58

理论上是这样进行的，但是实际情况是为了一些计算优化，可能会进行一些随机搜索，而不一定是遍历。

上面这个过程就把那个连续变量进行了一分为二（第一次离散化），比如说年龄被分成了0到20岁，20到100岁。

接下来，当决策树继续生长时，之前一分为二的连续特征可能会再次被选中。比如说20到100岁这个分叉被选中，我们再次重复上面那三个步骤，再去寻找下一个次分叉的阈值。这次得到的结果可能是20到35，35到100岁。

以此反复，这样一个连续变量就不停地被离散化，直到模型达到停止的条件。

弼码温 2017-11-02 22:25

假如训练集上有Age这么个特征，数值分别为

10，11， 16， 18， 20， 35

那么在这个节点上，算法会自动考虑下面几种划分的可能

Age <=10 和 Age>10

Age <=11 和 Age>11

Age <=16 和 Age>16

Age <=18 和 Age>18

Age <=20 和 Age>20

六个数值点，所以就有5个对应划分的可能。对这5个可能一一尝试，选出损失函数最小的那个。

AlphaCat 2017-12-01 11:31

对于数值特征，决策树会对所有取值一一尝试，直到选择到最好的。

对于分类，就是对应gini最小

对于回归，就是对应rmse最小

WinJ 2017-11-04 13:07

对于数值特征，决策树是如何决定阈值的？