信息增益和信息增益率的区别是什么?
2个回答
熵表示了随机变量的不确定度,熵越大不确定性越高。
$$信息增益 = 熵 - 条件熵$$
例如在决策树中,原来我们有50%的把握是正;现在在条件A下,我们可以有70%的把握是正,在条件B下,我们可以有10%的把握是正,在条件C下,我们可以有80%的把握是正。不确定性降低,所以条件熵小于原来的熵。这个差值我们就称作是信息增益。
上面的例子中,我们有3个条件。我们可以想象的是,条件越多,我们不确定降低越多。那么我们如何比较3个条件和5个条件呢?其实这个问题本质上是来自决策树的讨论。因为决策树到C4.5算法之后,允许多杈树,而不仅仅是二叉树。k杈树相当于是有k个条件,二叉树是2个条件。那么如何进行公平比较呢?
于是就有了信心增益率的概念。
$$信息增益率 = 信息增益 / 分裂信息度量$$
$$分裂信息度量 = -\sum_{i=1}^c\frac{|s_i|}{s}log\frac{|s_i|}{s}$$
简单来说分裂信息度量是对信息增益按照条件的个数和比重进行了缩放处理。