最小均方差的概率闡述(Probabilistic interpretation)

當面對一個像線性迴歸的迴歸問題時,爲什麼最小方差成本函數是一個好的解決方案呢?在這一節的內容,我們通過概率論的視角會發現最小方差迴歸是一個很自然的算法。

我們不妨假設,目標變量與輸入變量有如下關於:

y(i)=θTx(i)+ϵ(i),y(i)=θTx(i)+ϵ(i),

上式中的ϵ(i)ϵ(i)是一個誤差項,表示模型未捕捉的特徵或隨機噪聲。我們假設這些ϵ(i)ϵ(i)是獨立同分佈於均值爲0、方差爲σ2σ2的高斯分佈,記作ϵ(i)N(0,σ2)ϵ(i)∼N(0,σ2)ϵ(i)ϵ(i)的概率密度爲:

p(ϵ(i))=12πσexp((ϵ(i))22σ2).p(ϵ(i))=12πσexp(−(ϵ(i))22σ2).

替換一下變量則有:

p(y(i)|x(i);θ)=12πσexp((y(i)θTx(i))22σ2).p(y(i)|x(i);θ)=12πσexp(−(y(i)−θTx(i))22σ2).

p(y(i)|x(i);θ)p(y(i)|x(i);θ)是對於給定輸入特徵x(i)x(i)和參數θθ時,y(i)y(i)的條件概率分佈。需要注意的是它不能寫成p(y(i)|x(i),θ)p(y(i)|x(i),θ),因爲θθ不是一個隨機變量。

給定XX(包含所有的數據集x(i)x(i))和θθ,如何確定y(i)y(i)的分佈?這個概率由p(y⃗ |X;θ)p(y→|X;θ)表示,它是y⃗ y→關於θθ的函數。而當我們把它看成是一個關於θθ的函數時,這個函數就可以稱爲似然函數

L(θ)=L(θ;X,y⃗ )=p(y⃗ |X;θ).L(θ)=L(θ;X,y→)=p(y→|X;θ).

又我們假設ϵ(i)ϵ(i)是獨立的,上式可改寫爲:

L(θ)=i=1m p(y(i)|x(i);θ)=i=1m 12πσexp((y(i)θTx(i))22σ2)L(θ)=∏i=1m p(y(i)|x(i);θ)=∏i=1m 12πσexp(−(y(i)−θTx(i))22σ2)

爲了求極大似然,使用對數似然函數可以簡化我們的計算:

(θ)=log L(θ)=logi=1m12πσexp((y(i)θTx(i))22σ2)=i=1mlog12πσexp((y(i)θTx(i))22σ2)=mlog12πσ1σ212i=1m(y(i)θTx(i))2.ℓ(θ)=log L(θ)=log∏i=1m12πσexp(−(y(i)−θTx(i))22σ2)=∑i=1mlog12πσexp(−(y(i)−θTx(i))22σ2)=mlog12πσ−1σ2⋅12∑i=1m(y(i)−θTx(i))2.

而這時我們就可以發現極大似然估計和最小均方差是同解的:

12i=1m(y(i)θTx(i))212∑i=1m(y(i)−θTx(i))2

上式就是原始最小方差成本函數J(θ)J(θ)

總結: 在之前的概率假設下,最小方差迴歸和尋找θθ的極大似然估計是對應的。在這一系列假設下,最小方差迴歸是處理極大似然估計的直接方法。 
需要注意一點,最後參數θθ的選擇和方差σ2σ2是無關的,實際上即使σ2σ2不知道我們也可推出已上結論。這一點在後面的指數族和生成線性模型中也會有應用。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章