knn推导过程中的一个细节

  统计/机器学习 监督式学习    浏览次数:4685        分享
1

周志华的书里关于knn的这一段,画出来的蓝圈里第一个“约等于”我可以理解,第二个“小于等于号”我就不明白了。

有知道的大牛分享一下思路吗?

谢谢!


 

剪叔   2017-12-20 13:24



   3个回答 
3

注意看第二段的最后一句话,根据这句话中$c^*$的意义,我们就知道,对于任意的$c$

$$P(c^*|x)\geq P(c|x)$$

对于k分类问题,$\mathcal Y$就有k个元素,那么蓝色框框里的式子就可以写成

$$1-\sum_{c\in\mathcal{Y}}P^2(c|x)\leq 1-kP^2(c^*|x)\leq 1-P^2(c^*|x)$$

这样看就很显然了



SofaSofa数据科学社区DS面试题库 DS面经

0101RG   2017-12-21 09:06

谢谢!写出来挺简单,自己想却想不明白了 - 剪叔   2017-12-22 13:41
这个结论挺有意思。kNN不会比naive bayes差太多。 - kykix   2018-04-16 12:37
注意结论的条件是在任意小距离内有训练样本,也就是说训练样本要无限多。相当于训练样本包括了所有的输入范围,这种情况下knn错误当然小了。 - Zealing   2018-04-16 13:06
第二个不等式中的第一个符号不对吧,应该是>= - xwemin   2018-06-04 21:17
3

0101RG 的推导有错误。

根据$\sum_{c\in Y} P(c|x)=1 \geq P(c^*|x)=max(P(c|x))$

有$\sum_{c\in Y} P^2(c|x)) \geq P^2(c^*|x)$

所以$1-\sum_{c\in Y} P^2(c|x) \leq 1-P^2(c^*|x)$

SofaSofa数据科学社区DS面试题库 DS面经

Zealing   2018-04-16 23:52

0101RG第二个式子,中间那一步似乎不对,$1−kP^2(c^*|x)$那里画蛇添足了 - 木子周   2018-04-17 09:57
第一步到第二步不准确,看推导是两边平方得出的;但是左边应该是和的平方,不是平方的和,应该加一步,和的平方大于平方的和,容易被误导 - xwemin   2018-06-04 21:26
2

话说$P^2(c^*|x)$不是属于$\sum_{c \in y}{P^2(c|x)}$中的一项嘛?也就是说$\sum_{c \in y}{P^2(c|x)} \ge P^2(c^*|x)$。所以$1-\sum_{c \in y}{P^2(c|x)} \le 1-P^2(c^*|x)$

SofaSofa数据科学社区DS面试题库 DS面经

安西大嘟嘟   2019-10-04 11:57



  相关讨论

有序多分类问题

线性可分是什么意思?

stacking模型里每个子模型的权重如何确定?

rulefit和gdbt+lr有什么区别?

KNN中K值的选择

为什么LR要用Sigmoid函数?

为什么说knn是惰性算法

MLR分片模型是什么模型?

k-NN的k取1会怎么样

adaboost里的learning rate是什么意思?

  随便看看

线性可分是什么意思?

怎么给plt.subplot加一个主标题?

怎么把pandas dataframe中的一列转成一个list?

线性回归需要满足哪些基本前提假设

修正R方(adjusted R square)是什么?