異常檢測 cook distance

原創

2020-07-06 12:30

前面寫了leverage 槓桿的計算以及其意義
主要是爲後面的內容做一些鋪墊.Cook’s distance起源於提出這個名詞的統計學家Cook，用於刪除一個樣本後，對模型的影響。
假設有如下模型
${\mathbf{y}}= {\mathbf{X}}{{\beta}}+\epsilon,X \in \mathbb{R}^{m \times p}$
$\hat{\beta}= (X^TX)^{-1}X^Ty\Rightarrow \hat{y}=X\hat{\beta}$
$X_{(-i)},y_{(-i)}$ 表示從原來數據中去掉第i行數據
$\hat{\beta_{(-i)}}=(X_{(-i)}^TX_{(-i)})^{-1}X_{(-i)}^Ty\Rightarrow\hat{y}_{(-i)}=X\hat{\beta}_{(-i)}$
$e=y-\hat{y}\Rightarrow s^2=(y-\hat{y})^T(y-\hat{y})/(n-p)=\frac{e^Te}{n-p}$
n-p表示自由度，顯然，這個公式不適合n<=p的情況，對於高維的情況可以參考相應的擴展版。
對第i個樣本的cook距離表示如下
$D_i=\frac{(\hat{y}_{(-i)}-\hat{y})^T(\hat{y}_{(-i)}-\hat{y})}{ps^2}=\frac{(\hat{\beta_{(-i)}}-\hat{\beta})^TX^TX(\hat{\beta_{(-i)}}-\hat{\beta})}{ps^2}$

上式的變量的平方和，讓人很容易想起卡方分佈 $\mathcal{X^2}$ 。
兩個卡方的相除又讓人想到方差齊性檢測 $F(p,m-p,1-\alpha)$ 分佈，這是 $D_i$ 的主要意義所在。利用了分佈的概率 $D_i<=F(p,m-p,1-\alpha)$ 去估計樣本的異常情況，顯然更加科學，有技術含量。

從表面上看，如果要實現這個功能，需要藉助留一法去處理，顯然這樣做會帶來很大的運算量，使得算法的實現變得困難。藉助以下公式，使得運算簡單
$\hat{\beta}-\hat{\beta}_{{-i}}=\frac{(X^TX)^{-1}x_i}{1-v_i}(y_i-x_i^T\hat{\beta})$
這裏， $x_i$ 表示第i個樣本，即X的第i行。 $v_i=x_i^T(X^TX)^{-1}x_i$
簡略證明如下：
我們對X做行交換，y做相應的變換，是不會影響 $\beta$ 的估計。因此，有
$X=\begin{bmatrix} X_{(-i)}\\ x_i^T \end{bmatrix},y=\begin{bmatrix} y_{(-i)}\\ y_i \end{bmatrix}$

由於 $X = \begin{bmatrix} x_1^T\\ \cdots\\ x_m^T \end{bmatrix}$ ，得到
$X^TX=[x_1,\cdots,x_m]\begin{bmatrix} x_1^T\\ \cdots\\ x_m^T \end{bmatrix}=\sum_{i=1}^mx_ix_i^T=X_{(-i)}^TX_{(-i)}+x_ix_i^T$

由於 $(A + UV')^{-1} = A^{-1} - (A^{-1}UV'A^{-1})/(1 + V'A^{-1}U)$
令 $A =X_{(-i)}^TX_{(-i)}$
$(X^TX)^{-1}=(X_{(-i)}^TX_{(-i)}+x_ix_i^T)^{-1}=A^{-1}-A^{-1}x_ix_i^TA^{-1}/(1+x_i^TA^{-1}x_i)$

$X^Ty=\begin{bmatrix} X_{(-i)}\\ x_i^T \end{bmatrix}^T\begin{bmatrix} y_{(-i)}\\ y_i \end{bmatrix}=X_{(-i)}^Ty_{(-i)}+x_iy_i$
令 $w_{i}=x_i^T(A)^{-1}x_i$
$\hat{\beta}=(X^TX)^{-1}X^Ty=A^{-1}X_{(-i)}^Ty_{(-i)}-A^{-1}x_ix_i^TA^{-1}X_{(-i)}^Ty_{(-i)}/(1+x_i^TA^{-1}x_i)+\\ A^{-1}x_iy_i-A^{-1}x_ix_i^TA^{-1}x_iy_i/(1+x_i^TA^{-1}x_i)\\ =(I-A^{-1}x_ix_i^T/(1+w_i))\beta_{(-i)}+A^{-1}x_iy_i/(1+w_i)\\$
由此推得
$x_i^T\hat{\beta}=(x_i^T-w_ix_i^T/(1+w_i))\hat{\beta}_{(-i)}+w_iy_i/(1+w_i)\Rightarrow\\ x_i^T\hat{\beta}=x_i^T\hat{\beta}_{(-i)}/(1+w_i)+y_i-y_i/(1+w_i)\Rightarrow\\ x_i^T\hat{\beta}-y_i=(x_i^T\hat{\beta}_{(-i)}-y_i)/(1+w_i)$

$\hat{\beta}-\hat{\beta}_{(-i)}=A^{-1}x_i(y_i-x_i^T\hat{\beta}_{(-i)})/(1+w_i)=A^{-1}x_i(y_i-x_i^T\hat{\beta})$

由於 $X_{(-i)}^TX_{(-i)}=X^TX-x_ix_i^T$
$(X_{(-i)}^TX_{(-i)})^{-1}=(X^TX)^{-1}+(X^TX)^{-1}x_ix_i^T(X^TX)^{-1}/(1-v_i)$
$v_i=x_i^TX^TXx_i$ ，可以推得

$(X_{(-i)}^TX_{(-i)})^{-1}x_i=(X^TX)^{-1}x_i+(X^TX)^{-1}x_ix_i^T(X^TX)^{-1}x_i/(1-v_i)\\ =(X^TX)^{-1}x_i/(1-v_i)$
得到
$\hat{\beta}-\hat{\beta}_{(-i)}=\frac{(X^TX)^{-1}x_i}{1-v_i}(y_i-x_i^T\hat{\beta})$
代入 $D_i$ 公式得到
$D_i = (\frac{y_i-x_i^T\hat{\beta}}{s\sqrt{1-v_i}})^2\frac{v_i}{p(1-v_i)}$
可以看出 $D_i$ 考慮了樣本i的兩部分信息，前者是學生化後的殘差，後者反應了該樣本的槓桿值

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

異常檢測 cook distance

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

四參數擬合之LMF法（無約束)

四參數擬合算法之高斯牛頓法

四參數擬合算法之牛頓法

維納濾波及其簡單實現

Cardinal B-Splines 曲線擬合

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結