Leverage槓桿是一個指標,描述了樣本對模型的影響程度
高槓杆點本質是一種離羣點,但是它不同於普通離羣點,和擬合直線比較遠,而是離開羣體遠,卻在擬合直線附近。爲了,擬合得更好,擬合直線需要靠近這點以減少擬合誤差。這樣導致了直線偏離了其他的點,這點相當於一個支點。個人認爲這是槓桿的由來。
y=Xβ+ϵ,X∈Rm×n,y∈Rm×1,ϵ∼N(0,σ2)β^=(XTX)−1XTy
y^=Xβ^=X(XTX)−1XTy=Hy=i=1∑m(hciyi)
H是正交投影矩陣,符合H2=H,hci表示H的第i列,類似地,用hriT表示H的第i行,hij表示H的一個元素
hi,j=xiT(XTX)−1xj,反應了樣本i和樣本j之間的影響
yi^=hriTy=j=1∑m(hijyj)∂yi∂yi^=hii
e=y−y^Var(e)=Var(y−y^)=Var((I−H)y)=(I−H)TVar(y)(I−H)=σ2(I−H)
得到Var(ei)=(1−hii)σ2
顯然,hii越大,噪聲越小
經過上面的分析可以知道,hii=xiT(XTX)−1xi
這裏的意義在哪裏呢,先理解y^=X(XTX)XTy的意義
SVD(X)=UΣVT,U代表X的列空間,V代表了行空間
y=y^+y⊥Col(X),y分解平行與列空間Col(X)和正交於Col(X)的部分
y^屬於Col(X),r=Rank(X),則可以表示爲y^=∑i=1rαiui
經過XTy,發生兩個作用
- XTy 的意義在於去掉y中屬於XT的NULL空間的成分
- y中不同的特徵向量成分經過不同的拉伸,導致y^變形,爲了克服這個問題,加入了X(XTX)−1,作爲逆變換,將拉伸的部分還原回去。
展開下式就明白了
X(XTX)−1XT=UΣVT(VΣ−2VT)VΣUT=U[Ir000]UT
就是保留平行於Col(X)的成分,同時不做拉伸
再看看
hii=xiT(XTX)−1xi
類似地,有xi=∑i=1rθivi
hii=xiT(VΣ−2VT)xi
假設p=∣∣xi∣∣=sqrt(∑i=1rθi2)
hii=i=1∑r(θi/λi)2
λ12>=⋯>=λr2爲X的奇異值
可以發現,令θi變大後,會導致p變大,hii也會變大,只是變得幅度跟對應的
λi成反比。得出的結果是,在主成分方向,由於λi比較大,hii變大的幅度比較慢,反之,變化較快。
studentized residual
ti=σ^1−hiiei
可見,具有大的hii的樣本具有放大殘差的能力。所以爲了減少總體的殘差了,模型偏向於去減少這些樣本的殘差,從而導致了所謂槓桿效應。
參考
https://en.wikipedia.org/wiki/Leverage_(statistics)
https://www.zhihu.com/question/36224636/answer/66618532