关于方差和偏差和噪声

  统计/机器学习 监督式学习    浏览次数:3568        分享
0

问个问题 求大神告知

这里的 yD 和 y 的区别是什么?我们的数据集不是只有一个标签的吗?


还有关于方差和偏差

我们令

y_i 是第i行数据真实标签

y_pred_i 是第i行数据预测标签,mean_y_pred是所有预测值的均值

我们知道方差是针对一个数据集的,那么 方差是所有预测值数据集的方差吗?

就是说 方差=sum((y_pred_i-mean_y_pred))/n   i从1->n  吗?

然后偏差是针对数据集的还是针对单个数据实例的?

就是说 第i行数据的偏差=(mean_y_pred-y_i)^2 ?

还是说 所有数据的偏差=sum((mean_y_pred-y_i)^2)/n ?

然后噪声又是怎么求的?机器学习书上的噪声是 (yD-y)^2/n    这里的yD和y就是我上面提问的,不是一样的嘛?

 

a651021213   2018-10-13 14:27



   1个回答 
0

你截图里的$y_D$应该是观测值,$y$是真实值,具体的前后文不知道,我觉得应该是有观测误差,所以$y$和$y_D$不一定相等。


一般偏差是指总体的均值和预测的均值的差,假设$y_i$是真值,$\hat y_i$是预测值,偏差的式子为

$$\sum_{i=1}^n\frac{y_i-\hat y_i}{n}$$

你说的方差是

$$\sum_{i=1}^n\frac{(\hat y_i-\text{mean}(\hat y))^2}{n-1}$$

SofaSofa数据科学社区DS面试题库 DS面经

MangoCoke   2018-10-14 09:57



  相关讨论

为什么LR要用Sigmoid函数?

有序多分类问题

stacking模型里每个子模型的权重如何确定?

MLR分片模型是什么模型?

KNN中K值的选择

欠采样后概率还原问题

线性可分是什么意思?

为什么说knn是惰性算法

k-NN的k取1会怎么样

adaboost里的learning rate是什么意思?

  随便看看

随机森林如何调参?

matplotlib.pyplot做折线图的时候,显示为虚线,或者点划线?

pandas.DataFrame更改列名

支持向量机(SVM)里的支持向量是什么意思

numpy里的无穷大np.inf到底是多大呢?