最小二乘估計與極大似然估計

原創

2020-06-16 04:14

最小二乘估計與極大似然估計聯繫

給定m個樣本數據, $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)})$ ,其中 $x^{(i)} \in \mathbb{R^n},y^{(i)} \in R$ .

最小二乘估計

通過找到參數 $\theta$ 使得所有樣本上的均方誤差和最小,即損失函數爲:
$J(\theta) = \frac{1}{2m}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$
公式說明:

其中 $y^{(i)}$ 表示樣本 $i$ 的真實值, $\theta^Tx^{(i)}$ 表示樣本i的預測值, $\theta \in \mathbb{R^n}$ 爲待求解的參數, $y^{(i)}-\theta^Tx^{(i)}$ 即爲樣本 $i$ 的殘差。
損失函數中除以 $m$ 的原因是爲了平衡樣本數量帶來的影響,如果不除以 $m$ , $J(\theta)$ 隨着樣本量增加而增加,對求解參數 $\theta$ 會帶來一定的影響。

極大似然估計

極大似然估計是點估計中的一種用於估計參數的方式。假設總體的密度函數爲 $p(x;\theta)$ ,當給定m個來自總體的樣本 $(x^{(1)},y^{(1)}),(x^{(2)},y^{(2)}),(x^{(3)},y^{(3)})....(x^{(m)},y^{(m)})$ 時,將m個樣本的聯合概率函數看作 $\theta$ 的函數,記作 $L(\theta;x^{(1)}...x^{(m)})$ ,簡記爲 $L(\theta)$ :
$L(\theta) = p(x^{(1)};\theta)p(x^{(2)};\theta)...p(x^{(m)};\theta) \\ = \prod_{i=1}^m p(x^{(i)};\theta)$
所以極大似然估計就是找到 $\theta$ 使得當前樣本出現的可能性最大,即似然函數 $L(\theta)$ 最大。

注意:

似然函數不等同於概率,因爲對似然函數求積分不一定爲1;但是似然函數和概率是成比例的,也就是說如果 $L(\theta_1)<L(\theta_2)$ ,那麼參數估計得結果爲 $\theta_2$ 的概率應該大於爲 $\theta_1$ 的結果。
似然函數和概率密度函數的關係。對於二元函數 $p(x;\theta)$ ,給定 $x$ 帶入時,得到僅與 $\theta$ 相關的函數即 $L(\theta)$ ;給定 $\theta$ 時候帶入時,得到僅與 $x$ 相關的函數即概率密度函數。
關於表示,一般豎線“|“表示條件概率即表明參數 $\theta$ 是一個隨機變量,而分號“;”表示 $\theta$ 是一個參數,即是一個固定的值,只是我們不知道而已。後者代表了頻率學派的觀點,極大似然估計就是頻率學派的思想。

聯繫

當最小二乘估計中每個樣本的殘差 $\xi_i$ 獨立,且均服從均值爲0,方差爲 $\sigma ^2$ 的高斯分佈時,最小二乘估計和極大似然估計等價。記作如下:
$y^{(i)} = \theta^Tx^{(i)}+\xi_i \\ \xi_i \sim N(0,\sigma^2)$
由於 $\xi_i$ 服從高斯分佈,故其概率密度函數爲:
$p(\xi_i) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{\xi_i^2}{2\sigma^2}}$
將 $\xi_i = y^{(i)} - \theta^Tx^{(i)}$ 帶入則有:
$p(y^{(i)}|x^{(i)};\theta) = \frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}}$
$p(y^{(i)}|x^{(i)};\theta)$ 可以理解爲當參數爲 $\theta$ 時, $\theta^Tx^{(i)}$ 與 $y^{(i)}$ 接近的概率。對於給定m個樣本,似然函數爲:
$L(\theta) = \prod_{i=1}^m p(y^{(i)}|x^{(i)};\theta)$
對數似然函數爲:
$l(\theta) = log L(\theta) = \sum_{i=1}^m (log(\frac{1}{\sqrt{2\pi}\sigma})-\frac{(y^{(i)}-\theta^Tx^{(i)})^2}{2\sigma^2}) \\ = -mlog(\sqrt{2\pi}\sigma)-\frac{1}{2\sigma^2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$
利用極大似然估計即找到 $\theta$ 使得似然函數 $L(\theta)$ 最大,由於 $log$ 函數單調遞增,似然函數$ L(\theta) $最大等同於對數似然$ l(\theta) $最大。在對數似然函數表達式$ (5) $中,前半部分與$ \theta $無關,所以最大化對數似然函數等價與最小化:
$J(\theta) = \frac{1}{2}\sum_{i=1}^m(y^{(i)}-\theta^Tx^{(i)})^2$
在式(8)中的 $J(\theta)$ 與最小二乘估計的目標函數僅僅相差了一個分子中的 $m$ ,而 $m$ 並不影響參數求解。所以可以看出,當**假設最小二乘法估計的殘差服從獨立同分布均值爲0的高斯分佈時,極大似然估計和最小二乘法估計是等價的**.

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

最小二乘估計與極大似然估計

最小二乘估計與極大似然估計聯繫

最小二乘估計

極大似然估計

聯繫

最小二乘估計與極大似然估計

leetcode前50題easy難度題解

劍指offer之複雜鏈表的複製、兩個鏈表的第一個公共結點

劍指offer易錯點記錄-20190315

分類模型評價指標和方法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結