線性迴歸假設:
我們假設數據具有以下形式:
where ~
這樣的模型可以生產如下的數據:
普通最小二乘法(OLS)線性迴歸
如果我們有上圖所示的一個數據集,我們就需要找到一條合適的直線來描述上述的數據,可以通過以下公式來描述這條直線:
我們的目標是找到 和 使得我們的數據具有最小的RMSE(均方根誤差),即實現以下表達式:
我們可以用線性迴歸來擬合一條簡單的線:
在有數據的區域我們的表達式得到的直線幾乎是正確的,但是在數據缺失或者沒有數據的區域就很難根據表達式來判斷,因此我們需要一個通用的度量來描述數據。
在上圖中我們可以看到置信界限(conbdence bounds)如何增加(因此答案的不確定性增加)。從線性迴歸中我們不能得到這些,這就是爲什麼我們需要貝葉斯線性迴歸。
貝葉斯規則
首先我們看條件概率的基本表達式:
這個表達式代表了事件B發生的條件下事件A發生的概率(即後驗概率),等號右邊代表在Ad條件下B發生的概率乘以A發生的概率(即先驗概率)再除以B發生的概率。
貝葉斯定理如何與這個問題相關
現在讓我們解釋貝葉斯規則中的每個變量,首先設A是用 表示的學習模型(即 )的參數, B是數據D。所以可以表示爲:
爲了解決這個問題,我們將在給定數據的情況下得到 (即 和 )中所有參數的聯合分佈。也就是說 告訴我們在給定的數據 的值時,概率爲多少。這被稱爲後驗分佈。
計算步驟:
1. :模型中有參數 對觀測數據的擬合情況
2. :我們之前對 參數可能值的先驗設想。先驗越接近真實,能越快越準確的發現正確的後驗分佈。
3. :觀測數據的概率,是一個常數值。
先驗 :我們認爲參數是什麼樣子的?
在貝葉斯設置中,我們用分佈(高斯分佈,正態分佈)來表示參數值( )。
用概率分佈指定參數
例如我們用均值爲0,標準差爲3的正態分佈來表示參數 , 則
~
用均值爲0, 方差爲5來表示 , 則
~
如果我們對 的許多值進行取樣,我們會更加接近真正的正態分佈,下圖是兩個正態分佈圖,從圖中可以看出, 比 更加扁平( 接近0的比例較高)
一個好的先驗概率 是很重要的,因爲先驗與後驗越接近,我們就會更快的得到真正的後驗。如果先驗與後驗分佈一致,當我們從先驗中取樣時,實際上就是從後驗中取樣。
之後的內容在對貝葉斯(Bayes)線性迴歸的理解(二)中更新。。。