最小二乘估計與極大似然估計

最小二乘估計與極大似然估計聯繫

給定m個樣本數據,(x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m))(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)}),其中x(i)Rn,y(i)Rx^{(i)} \in \mathbb{R^n},y^{(i)} \in R.

最小二乘估計

通過找到參數θ\theta使得所有樣本上的均方誤差和最小,即損失函數爲:
J(θ)=12mi=1m(y(i)θTx(i))2 J(\theta) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2
公式說明:

  1. 其中y(i)y^{(i)}表示樣本ii的真實值,θTx(i)\theta^Tx^{(i)}表示樣本i的預測值,θRn\theta \in \mathbb{R^n}爲待求解的參數,y(i)θTx(i)y^{(i)}-\theta^Tx^{(i)}即爲樣本ii的殘差。
  2. 損失函數中除以mm的原因是爲了平衡樣本數量帶來的影響,如果不除以mm,J(θ)J(\theta)隨着樣本量增加而增加,對求解參數θ\theta會帶來一定的影響。

極大似然估計

極大似然估計是點估計中的一種用於估計參數的方式。假設總體的密度函數爲p(x;θ)p(x;\theta),當給定m個來自總體的樣本(x(1),y(1)),(x(2),y(2)),(x(3),y(3))....(x(m),y(m))(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)})時,將m個樣本的聯合概率函數看作θ\theta的函數,記作L(θ;x(1)...x(m))L(\theta;x^{(1)}...x^{(m)}),簡記爲L(θ)L(\theta):
L(θ)=p(x(1);θ)p(x(2);θ)...p(x(m);θ)=i=1mp(x(i);θ) L(\theta) = p(x^{(1)};\theta)p(x^{(2)};\theta)...p(x^{(m)};\theta) \\ = \prod_{i=1}^m p(x^{(i)};\theta)
所以極大似然估計就是找到θ\theta使得當前樣本出現的可能性最大,即似然函數L(θ)L(\theta)最大。

注意:

  1. 似然函數不等同於概率,因爲對似然函數求積分不一定爲1;但是似然函數和概率是成比例的,也就是說如果L(θ1)<L(θ2)L(\theta_1)<L(\theta_2),那麼參數估計得結果爲θ2\theta_2的概率應該大於爲θ1\theta_1的結果。
  2. 似然函數和概率密度函數的關係。對於二元函數p(x;θ)p(x;\theta) ,給定xx帶入時,得到僅與θ\theta相關的函數即L(θ)L(\theta);給定θ\theta時候帶入時,得到僅與xx相關的函數即概率密度函數。
  3. 關於表示,一般豎線“|“表示條件概率即表明參數θ\theta是一個隨機變量,而分號“;”表示θ\theta是一個參數,即是一個固定的值,只是我們不知道而已。後者代表了頻率學派的觀點,極大似然估計就是頻率學派的思想。

聯繫

  1. 當最小二乘估計中每個樣本的殘差ξi\xi_i獨立,且均服從均值爲0,方差爲σ2\sigma ^2的高斯分佈時,最小二乘估計和極大似然估計等價。記作如下:
    y(i)=θTx(i)+ξiξiN(0,σ2) y^{(i)} = \theta^Tx^{(i)}+\xi_i \\ \xi_i \sim N(0,\sigma^2)
    由於ξi\xi_i服從高斯分佈,故其概率密度函數爲:
    p(ξi)=12πσeξi22σ2 p(\xi_i) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}}
    ξi=y(i)θTx(i)\xi_i = y^{(i)} - \theta^Tx^{(i)}帶入則有:
    p(y(i)x(i);θ)=12πσe(y(i)θTx(i))22σ2 p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}
    p(y(i)x(i);θ)p(y^{(i)}|x^{(i)};\theta)可以理解爲當參數爲θ\theta時,θTx(i)\theta^Tx^{(i)}y(i)y^{(i)}接近的概率。對於給定m個樣本,似然函數爲:
    L(θ)=i=1mp(y(i)x(i);θ) L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)
    對數似然函數爲:
    l(θ)=logL(θ)=i=1m(log(12πσ)(y(i)θTx(i))22σ2)=mlog(2πσ)12σ2i=1m(y(i)θTx(i))2 l(\theta) = log L(\theta) = \sum_{i=1}^m (log(\frac{1}{\sqrt{2\pi}\sigma})-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ = -mlog(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2
    利用極大似然估計即找到θ\theta使得似然函數L(θ)L(\theta)最大,由於loglog函數單調遞增,似然函數$ L(\theta)最大等同於對數似然 l(\theta)最大。在對數似然函數表達式(5),中,前半部分與\theta $無關,所以最大化對數似然函數等價與最小化:
    J(θ)=12i=1m(y(i)θTx(i))2 J(\theta) = \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2
    在式(8)中的J(θ)J(\theta)與最小二乘估計的目標函數僅僅相差了一個分子中的mm,而mm並不影響參數求解。所以可以看出,當**假設最小二乘法估計的殘差服從獨立同分布均值爲0的高斯分佈時,極大似然估計和最小二乘法估計是等價的**.
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章