怎么理解库克距离(Cook's distance)?

  统计/机器学习 回归分析 描述性统计    浏览次数: 3029
4

怎么理解回归中的库克距离(Cook's distance)?

 

Pokemon   2017-04-21 23:04



   1个回答 
8

在线性回归中,库克距离(Cook's Distance)描述了单个样本对整个回归模型的影响程度。库克距离越大,说明影响越大。库克距离也可以用来检测异常点。


在最理想的情况下,每个样本对模型的影响是相等的。如某个样本的库克距离非常大,我们可以视为这个样本是异常点(outlier)。通常来说,若库克距离大于1,我们就认为这个点是异常点。也有人把这个阈值设置为$4/n$。




----------如果想知道具体的计算公式,欢迎继续阅读----------

在线性回归中,

$$y = X\beta + \epsilon,$$

$y\in\mathbb{R}^n$, $X\in\mathbb{R}^{n\times p}$, $\beta\in\mathbb{R}^p$, $\epsilon\in \mathbb{R}^{p}$。 这里考虑的是$n$个观测值的样本,自变量的数量为$p$,$\epsilon$是误差向量。

我们知道这个线性回归的投影矩阵$H=X(X^TX)^{-1}X^T$,$h_i=x_i^T(X^TX)^{-1}x_i$是矩阵$H$对角线上的第$i$个元素。第$i$个样本的库克距离

$$D_i=\frac{\epsilon_i^2 h_i}{s^2 p (1-h_i)^2},$$

其中$s^2$是这个模型的均方误差MSE。

SofaSofa数据科学社区 DS面经 问答 实战

高代兄   2017-04-24 07:27



  相关主题

线性回归的容忍度Tolerance是什么意思?   1回答

关于方差膨胀因子(VIF)的问题   2回答

标准误和标准差有什么区别?   1回答

统计里的IQR是什么意思?   1回答

Median Absolute Deviation的定义是什么?   1回答

为什么样本方差是除以n-1   4回答

估计标准差的标准差?   1回答

用python计算协方差   1回答

python里计算百分位数   2回答

python中百分位数的逆运算   1回答

EDA一般包括哪些步骤?   2回答

如何向没有统计知识背景的人解释“什么是标准差”?   1回答



回答问题时需要注意什么?

我们谢绝在回答前讲“生动”的故事。

我们谢绝“这么简单,你自己想”、“书上有的,你认真看”这类的回答;如果你认为对方的提问方式或者内容不妥,你可以直接忽略该问题,不用进行任何作答,甚至可以对该问题投反对票。

我们谢绝答非所问。

我们谢绝自己不会、硬要回答。

我们感激每一个用户在编写答案时的努力与付出!