貝葉斯嶺迴歸理論

轉自：http://blog.csdn.net/dark_scope/article/details/8558244

貝葉斯線性迴歸的引入主要是在最大似然估計中很難決定模型的複雜程度，ridge迴歸加入的懲罰參數其實也是解決這個問題的，同時可以採用的方法還有對數據進行正規化處理，另一個可以解決此問題的方法就是採用貝葉斯方法。

設參數爲w，則參數的先驗概率就是p(w)，設數據噪聲的精度是β，也就是

服從N(0,1/β)，且已知。那麼似然函數就是p(t | w)，t是生成的目標y值。當然條件中隱含了參數X，那麼作如下設定：

(m0和S0分別是正態分佈的均值和協方差)

那麼根據貝葉斯公式P(A|B)=P(B|A)*P(A)/P(B)，就有

其中

，

因爲先驗分佈是高斯，似然是高斯分佈，所以後驗概率同樣也是高斯分佈

我們假設一個比較特殊的情況，也就是w的分佈有一個精度參數α來確定，也就是

，那麼對應的後驗分佈的參數就變成了

那麼，把這個後驗分佈寫成具體的概率密度函數，然後對它的w求log，就得到了

這個大家可以喝ridge regression的公式比較一下，其實就是當λ = α/β 時的ridge regression

下面對一張圖片進行比較詳細的解釋(幾本參考資料裏都有這張圖，挺重要的)

這張圖展示了學習參數的一個過程，是按從上到下，從左到右的順序進行的。第一列實表示對於單個樣本的似然函數，忽略掉第一個，一次是第1,2,20個樣本的似然函數

從第一行第二列開始，這是最開始的w的先驗分佈，也就是α 決定的分佈，然後依概率從中隨便選取幾組參數可以得到第三列的幾條直線。然後第二行第一列的是對於第一個樣例的似然函數。注意這裏的似然是：

(請自行腦補把μ換成0，σ^2換成β…………)

把圓餅那個圖的分佈和似然分佈結合起來，就得到了第二行第二列的那個圖像，由此得到幾組的參數的直線畫在了第三列，然後重複這個過程，直到最後的到20個點的結果。

預測分佈就是給你x的值讓你求y得值，當然你可以從w得space裏面選一組參數來進行預測，但更爲可靠的方法是歸納一下所有的w

也就是

通過一坨計算，可以得到：

下面是一個樣例：

其中綠色的線是標準的分佈，紅線是平均值，粉紅色的部分是分佈的標準差，可以看到隨着樣例的越來越多，均值越來越好地擬合了原來的分佈

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.