怎么理解库克距离(Cook's distance)?

  统计/机器学习 回归分析 描述性统计    浏览次数:35863        分享
5

怎么理解回归中的库克距离(Cook's distance)?

 

Pokemon   2017-04-21 23:04



   1个回答 
13

在线性回归中,库克距离(Cook's Distance)描述了单个样本对整个回归模型的影响程度。库克距离越大,说明影响越大。库克距离也可以用来检测异常点。


在最理想的情况下,每个样本对模型的影响是相等的。如某个样本的库克距离非常大,我们可以视为这个样本是异常点(outlier)。通常来说,若库克距离大于1,我们就认为这个点是异常点。也有人把这个阈值设置为$4/n$。




----------如果想知道具体的计算公式,欢迎继续阅读----------

在线性回归中,

$$y = X\beta + \epsilon,$$

$y\in\mathbb{R}^n$, $X\in\mathbb{R}^{n\times p}$, $\beta\in\mathbb{R}^p$, $\epsilon\in \mathbb{R}^{p}$。 这里考虑的是$n$个观测值的样本,自变量的数量为$p$,$\epsilon$是误差向量。

我们知道这个线性回归的投影矩阵$H=X(X^TX)^{-1}X^T$,$h_i=x_i^T(X^TX)^{-1}x_i$是矩阵$H$对角线上的第$i$个元素。第$i$个样本的库克距离

$$D_i=\frac{\epsilon_i^2 h_i}{s^2 p (1-h_i)^2},$$

其中$s^2$是这个模型的均方误差MSE。

SofaSofa数据科学社区DS面试题库 DS面经

高代兄   2017-04-24 07:27



  相关讨论

关于方差膨胀因子(VIF)的问题

线性回归的容忍度Tolerance是什么意思?

为什么说中位数比平均数更稳健?

统计里的IQR是什么意思?

Median Absolute Deviation的定义是什么?

标准误和标准差有什么区别?

为什么样本方差是除以n-1

估计标准差的标准差?

统计学中的自变量和因变量分别是什么意思?

python里怎么计算两个向量的余弦相似?

  随便看看

对于xgboost,还有必要做很多特征工程吗?

Python的Jupyter Notebook环境下怎么制作一个动态显示的进度条?

plt.show()之后matplotlib图像依然不展示

pandas把一列日期转换为星期

怎么利用permutation importance来解释xgboost模型的特征?