最小二乘法是常見的構造代價函數, 擬合參數的方法,如下:
Cost=(h(x)-y)^2
這裏探討最小二乘的概率依據。
最大釋然理論
一個簡單的例子:
假設一個袋子裏有無限個球,白球出現的比例是P,黑球爲1-P。
那麼我從中取10個球,得到了7個白球,很自然的,我們會估計白球出現的比例P=0.7;
繼續,我們取100個球,得到了75個白球,我們會繼續估計P=0.75。
也就是,我們通過觀察到的事件,反過來推其中的概率分佈。
現在給定一個分佈D,假設其概率密度函數爲f(D),其中有參數sita。我們從中採樣得到樣本x1,x2,…,xn,但是並不知道參數sita。那麼我們希望通過這些觀測值xi,反過來推導出最有可能的sita。
按照概率密度函數,寫出事件(x1,x2,…,xn)出現的聯合概率:
其中參數sita未知。
我們可以基於這樣一個假設:真實的sita會使得如上的事件(x1,x2,…xn)發生的概率最大。
於是,我們把sita當做未知數,得到一個最優化問題:
Max(P(x1,x2,…,xn))。
最終得到的sita就是我們對於未知參數的估計,也就是最大釋然估計。
概率假設
在線性迴歸中,我們假設X,Y滿足線性相關:
在上述的最大釋然方法中,我們需要事先知道,或者假設樣本處於某種分佈,只是其中的參數未知。
這裏我們也可以假設y屬於某個分佈,得到其概率密度函數。因爲我們已有許多觀察值(y1,y2,…,yn),再套用上面最大釋然的方法,可以求得其中的未知參數。
一般的,我們假設y是關於x的線性函數,並且加上一個噪聲,這個噪聲可以是取樣或是其他各種原因造成的,寫成:
其中,e滿足高斯分佈:
那麼y也就滿足高斯分佈:
現在概率分佈假設寫出來了,直接套用最大釋然的方法,得到:
最大化如上的最大釋然函數,也就是最大化其中的,也就是最小二乘項。
小結
當我們假設Y滿足高斯分佈時,使用最小二乘法,也就等於使用最大釋然法,其具備合理的概率解釋。