異常檢測:Leverage of observation

Leverage槓桿是一個指標,描述了樣本對模型的影響程度
高槓杆點本質是一種離羣點,但是它不同於普通離羣點,和擬合直線比較遠,而是離開羣體遠,卻在擬合直線附近。爲了,擬合得更好,擬合直線需要靠近這點以減少擬合誤差。這樣導致了直線偏離了其他的點,這點相當於一個支點。個人認爲這是槓桿的由來。

y=Xβ+ϵ,XRm×n,yRm×1,ϵN(0,σ2)β^=(XTX)1XTyy = X\beta+\epsilon,X\in \mathbb{R}^{m \times n},y \in \mathbb{R}^{m \times 1},\epsilon \sim N(0,\sigma^2)\\\hat{\beta}=(X^TX)^{-1}X^Ty
y^=Xβ^=X(XTX)1XTy=Hy=i=1m(hciyi)\hat{y}=X\hat{\beta}=X(X^TX)^{-1}X^Ty=Hy=\sum_{i=1}^m(h_{ci}y_i)
HH是正交投影矩陣,符合H2=HH^2=H,hcih_{ci}表示H的第i列,類似地,用hriTh_{ri}^T表示H的第i行,hijh_{ij}表示H的一個元素

hi,j=xiT(XTX)1xjh_{i,j}=x_i^T(X^TX)^{-1}x_j,反應了樣本i和樣本j之間的影響

yi^=hriTy=j=1m(hijyj)yi^yi=hii\hat{y_i}=h_{ri}^Ty=\sum_{j=1}^m(h_{ij}y_j)\\\frac{\partial \hat{y_i}}{\partial y_i}=h_{ii}

e=yy^Var(e)=Var(yy^)=Var((IH)y)=(IH)TVar(y)(IH)=σ2(IH)e=y-\hat{y}\\Var(e)=Var(y-\hat{y})=Var((I-H)y)=(I-H)^TVar(y)(I-H)=\sigma ^2(I-H)

得到Var(ei)=(1hii)σ2Var(e_i)=(1-h_{ii})\sigma^2

顯然,hiih_{ii}越大,噪聲越小
經過上面的分析可以知道,hii=xiT(XTX)1xih_{ii}=x_i^T(X^TX)^{-1}x_i

這裏的意義在哪裏呢,先理解y^=X(XTX)XTy\hat{y}=X(X^TX)X^Ty的意義

SVD(X)=UΣVTSVD(X) = U\Sigma V^T,U代表X的列空間,V代表了行空間
y=y^+yCol(X)y = \hat{y}+y\perp Col(X),y分解平行與列空間Col(X)Col(X)和正交於Col(X)Col(X)的部分
y^\hat{y}屬於Col(X)Col(X)r=Rank(X)r=Rank(X),則可以表示爲y^=i=1rαiui\hat{y}=\sum_{i=1}^r\alpha_iu_i
經過XTyX^Ty,發生兩個作用

  1. XTyX^Ty 的意義在於去掉y中屬於XTX^T的NULL空間的成分
  2. y中不同的特徵向量成分經過不同的拉伸,導致y^\hat{y}變形,爲了克服這個問題,加入了X(XTX)1X(X^TX)^{-1},作爲逆變換,將拉伸的部分還原回去。
    展開下式就明白了
    X(XTX)1XT=UΣVT(VΣ2VT)VΣUT=U[Ir000]UTX(X^TX)^{-1}X^T=U\Sigma V^T(V\Sigma^{-2}V^T)V\Sigma U^T=U\begin{bmatrix} I_r & \mathbf{0} \\ \mathbf{0} & \mathbf{0} \end{bmatrix}U^T
    就是保留平行於Col(X)Col(X)的成分,同時不做拉伸

再看看
hii=xiT(XTX)1xih_{ii}=x_i^T(X^TX)^{-1}x_i
類似地,有xi=i=1rθivix_i=\sum_{i=1}^r\theta_iv_i

hii=xiT(VΣ2VT)xih_{ii}=x_i^T(V\Sigma^{-2}V^T)x_i
假設p=xi=sqrt(i=1rθi2)p=||x_i||=sqrt(\sum_{i=1}^r\theta_i^2)
hii=i=1r(θi/λi)2h_{ii}=\sum_{i=1}^r(\theta_i/\lambda_i)^2
λ12>=>=λr2\lambda_1^2>=\cdots>=\lambda_r^2爲X的奇異值

可以發現,令θi\theta_i變大後,會導致p變大,hiih_{ii}也會變大,只是變得幅度跟對應的
λi\lambda_i成反比。得出的結果是,在主成分方向,由於λi\lambda_i比較大,hiih_{ii}變大的幅度比較慢,反之,變化較快。
studentized residual

ti=eiσ^1hiit_i=\frac{e_i}{\hat{\sigma}\sqrt{1-h_{ii}}}
可見,具有大的hiih_{ii}的樣本具有放大殘差的能力。所以爲了減少總體的殘差了,模型偏向於去減少這些樣本的殘差,從而導致了所謂槓桿效應。

參考
https://en.wikipedia.org/wiki/Leverage_(statistics)
https://www.zhihu.com/question/36224636/answer/66618532

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章