參考 博客ooon
假設 X和Y滿足Y=X+ε ,ε 是噪聲,ε∼N(0,δ2ε) 。
f(X)是準確的預測函數,f^(X)是通過訓練集訓練的預測函數。
Err(x0)=E[(y0−f^(x0))2]=E[y20−2y0f^(x0)+f^2(x0)]=E[y20]−2E[y0f^(x0)]+E[f^2(x0)]=E[y20]−E2(y0)+E2(y0)−2E[y0f^(x0)]+E[f^2(x0)]−E2(f^(x0))+E2(f^(x0))
∵ E[y0]=E[f(x0+ε)]=E(f(x0))Var[y0]=E[(y0−E[y0])2]=E[(y0+ε−y0)2]=E[ε2]Var[X]=E[X2]−E2[X]
∴ Err(x0)=[E[y0]−E[f^(x0)]]2+E[f^2(x0)]−E2(f^(x0))+Var[ε]=[E[y0]−E[f^(x0)]]2+Var[f^(x0)]+Var[ε]=Bias2(f^(x0))+Var[f^(x0)]+δ2ε
對於k近鄰,其預測誤差爲:
Err(x0)=E[(Y−f^(x0))|X=x0]=δ2ε+[f(x0)−1k∑i=1Kf(xi)]2+δ2ϵk
隨着 k 增大,var 會減小,而bias 會增大。