信息增益和信息增益率的区别是什么?

  统计/机器学习 监督式学习 描述性统计    浏览次数:159        分享
0

信息增益和信息增益率的区别是什么?

 

yeahyeah   2019-09-23 10:44



   2个回答 
2

熵表示了随机变量的不确定度,熵越大不确定性越高。

$$信息增益 = 熵 - 条件熵$$

例如在决策树中,原来我们有50%的把握是正;现在在条件A下,我们可以有70%的把握是正,在条件B下,我们可以有10%的把握是正,在条件C下,我们可以有80%的把握是正。不确定性降低,所以条件熵小于原来的熵。这个差值我们就称作是信息增益。

上面的例子中,我们有3个条件。我们可以想象的是,条件越多,我们不确定降低越多。那么我们如何比较3个条件和5个条件呢?其实这个问题本质上是来自决策树的讨论。因为决策树到C4.5算法之后,允许多杈树,而不仅仅是二叉树。k杈树相当于是有k个条件,二叉树是2个条件。那么如何进行公平比较呢?

于是就有了信心增益率的概念。

$$信息增益率 = 信息增益 / 分裂信息度量$$

$$分裂信息度量 = -\sum_{i=1}^c\frac{|s_i|}{s}log\frac{|s_i|}{s}$$

简单来说分裂信息度量是对信息增益按照条件的个数和比重进行了缩放处理。


SofaSofa数据科学社区DS面试题库 DS面经

卡里昂   2019-09-29 16:07

-1

正如 收益和收益率的区别 一样

SofaSofa数据科学社区DS面试题库 DS面经

栗悟饭与龟波功   2019-09-25 18:31



  相关主题

标准误和标准差有什么区别?   1回答

为什么说中位数比平均数更稳健?   3回答

Median Absolute Deviation的定义是什么?   1回答

统计里的IQR是什么意思?   2回答

为什么样本方差是除以n-1   4回答

估计标准差的标准差?   1回答

统计学中的自变量和因变量分别是什么意思?   2回答

python里计算百分位数   2回答

python里怎么计算两个向量的余弦相似?   1回答

python中百分位数的逆运算   1回答

如何向没有统计知识背景的人解释“什么是标准差”?   1回答

EDA一般包括哪些步骤?   3回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!