一、概述
貝葉斯網絡是用來表示變量間連接概率的圖形模式,它提供了一種自然的表示因果信息的方法,用來發現數據間的潛在關係。在這個網絡中,用節點表示變量,有向邊表示變量的依賴關係。
貝葉斯方法以其獨特的不確定性知識表達形式、豐富的概率表達能力、綜合先驗知識的增量學習特性等成爲當前數據挖掘衆多方法中最爲引人注目的焦點之一。
1.1貝葉斯網絡的發展歷史
1.2貝葉斯方法的基本觀點
貝葉斯方法的特點是用概率去表示所有形式的不確定性,學習或其它形式的推理都用概率規則來實現。
貝葉斯學習的結果表示爲隨機變量的概率分佈,它可以解釋爲我們對不同可能性的信任程度。
貝葉斯學派的起點是貝葉斯的兩項工作:貝葉斯定理和貝葉斯假設。
貝葉斯定理將事件的先驗概率與後驗概率聯繫起來。
補充知識:
(1)先驗概率:先驗概率是指根據歷史的資料或主觀判斷所確定的各事件發生的概率。該類概率沒能經過試驗證實,屬於檢驗前的概率,所以稱之爲先驗概率。先驗概率一般分爲兩類,一是客觀先驗概率,是指利用過去的歷史資料計算得到的概率;二是主觀先驗概率,是指在無歷史資料或歷史資料不全的時候,只能憑藉人們的主觀經驗來判斷取得的概率。
(2)後驗概率:後驗概率一般是指利用貝葉斯公式,結合調查等方式獲取了新的附加信息,對先驗概率進行修正得到的更符合實際的概率。
(3)聯合概率:聯合概率也叫乘法公式,是指兩個任意事件的乘積的概率,或稱之爲交事件的概率。
假定隨機向量
,其中
貝葉斯方法對未知參數向量估計的一般方法爲:
(1)將未知參數看成隨機向量,這是貝葉斯方法與傳統的參數估計方法的最大區別。
(2)根據以往對參數
(3)計算後驗分佈密度,做出對未知參數的推斷。
在第(2)步,如果沒有任何以往的知識來幫助確定
1.3貝葉斯網絡的應用領域
輔助智能決策:
數據融合:
模式識別:
醫療診斷:
文本理解:
數據挖掘:1、貝葉斯方法用於分類及迴歸分析;2、用於因果推理和不確定知識表達;3、用於聚類模式發現。
二、貝葉斯概率論基礎
2.1、概率論基礎
2.2、貝葉斯概率
(1)先驗概率:
(2)後驗概率:
(3)聯合概率:
(4)全概率公式:設
則
(5)貝葉斯公式:貝葉斯公式也叫後驗概率公式,亦稱逆概率公式,其用途很廣。設先驗概率爲
- 任何完整的概率模型必須具有表示(直接或間接)該領域變量聯合分佈的能力。完全的枚舉需要指數級的規模(相對於領域變量個數)。
- 貝葉斯網絡提供了這種聯合概率分佈的緊湊表示:分解聯合分佈爲幾個局部分佈的乘積:
P(x1,x2,⋅⋅⋅,xn)=∏iP(xi|π) - 從公式可以看出,需要的參數個數隨網絡中節點個數呈線性增長,而聯合分佈的計算呈指數增長
- 網絡中變量間獨立性的指定是實現緊湊表示的關鍵。這種獨立性關係在通過人類專家構造貝葉斯網絡中特別有效。
三、簡單貝葉斯學習模型
簡單貝葉斯學習模型將訓練實例
- 結構簡單–只有兩層結構
- 推理複雜性與網絡節點個數呈線性關係
設樣本A表示成屬性向量,如果屬性對於給定的類別獨立,那麼