最小二乘估計與極大似然估計聯繫
給定m個樣本數據,(x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m)),其中x(i)∈Rn,y(i)∈R.
最小二乘估計
通過找到參數θ使得所有樣本上的均方誤差和最小,即損失函數爲:
J(θ)=2m1i=1∑m(y(i)−θTx(i))2
公式說明:
- 其中y(i)表示樣本i的真實值,θTx(i)表示樣本i的預測值,θ∈Rn爲待求解的參數,y(i)−θTx(i)即爲樣本i的殘差。
- 損失函數中除以m的原因是爲了平衡樣本數量帶來的影響,如果不除以m,J(θ)隨着樣本量增加而增加,對求解參數θ會帶來一定的影響。
極大似然估計
極大似然估計是點估計中的一種用於估計參數的方式。假設總體的密度函數爲p(x;θ),當給定m個來自總體的樣本(x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m))時,將m個樣本的聯合概率函數看作θ的函數,記作L(θ;x(1)...x(m)),簡記爲L(θ):
L(θ)=p(x(1);θ)p(x(2);θ)...p(x(m);θ)=i=1∏mp(x(i);θ)
所以極大似然估計就是找到θ使得當前樣本出現的可能性最大,即似然函數L(θ)最大。
注意:
- 似然函數不等同於概率,因爲對似然函數求積分不一定爲1;但是似然函數和概率是成比例的,也就是說如果L(θ1)<L(θ2),那麼參數估計得結果爲θ2的概率應該大於爲θ1的結果。
- 似然函數和概率密度函數的關係。對於二元函數p(x;θ) ,給定x帶入時,得到僅與θ相關的函數即L(θ);給定θ時候帶入時,得到僅與x相關的函數即概率密度函數。
- 關於表示,一般豎線“|“表示條件概率即表明參數θ是一個隨機變量,而分號“;”表示θ是一個參數,即是一個固定的值,只是我們不知道而已。後者代表了頻率學派的觀點,極大似然估計就是頻率學派的思想。
聯繫
- 當最小二乘估計中每個樣本的殘差ξi獨立,且均服從均值爲0,方差爲σ2的高斯分佈時,最小二乘估計和極大似然估計等價。記作如下:
y(i)=θTx(i)+ξiξi∼N(0,σ2)
由於ξi服從高斯分佈,故其概率密度函數爲:
p(ξi)=2πσ1e−2σ2ξi2
將ξi=y(i)−θTx(i)帶入則有:
p(y(i)∣x(i);θ)=2πσ1e−2σ2(y(i)−θTx(i))2
p(y(i)∣x(i);θ)可以理解爲當參數爲θ時,θTx(i)與y(i)接近的概率。對於給定m個樣本,似然函數爲:
L(θ)=i=1∏mp(y(i)∣x(i);θ)
對數似然函數爲:
l(θ)=logL(θ)=i=1∑m(log(2πσ1)−2σ2(y(i)−θTx(i))2)=−mlog(2πσ)−2σ21i=1∑m(y(i)−θTx(i))2
利用極大似然估計即找到θ使得似然函數L(θ)最大,由於log函數單調遞增,似然函數$ L(\theta)最大等同於對數似然 l(\theta)最大。在對數似然函數表達式(5)中,前半部分與\theta $無關,所以最大化對數似然函數等價與最小化:
J(θ)=21i=1∑m(y(i)−θTx(i))2
在式(8)中的J(θ)與最小二乘估計的目標函數僅僅相差了一個分子中的m,而m並不影響參數求解。所以可以看出,當**假設最小二乘法估計的殘差服從獨立同分布均值爲0的高斯分佈時,極大似然估計和最小二乘法估計是等價的**.