【機器學習】(5):貝葉斯決策

上一節我們介紹了監督學習的整體框架和基本的要點,按照總分的思考方式,接下來我們要分別介紹相應的一些算法了。今天這節我們來看看貝葉斯定理在機器學習中的應用。本章要點如下:

1. 貝葉斯定理;

2. 分類中的貝葉斯定理;

3. 風險和效用度量;

4. 關聯規則;


一、貝葉斯定理

      貝葉斯定理來源於統計學中的條件概率,它可以揭示兩個變量間的對應關係,基本公式如下:

      其中,P(C|x)表示觀測到數據x時事件C發生的條件概率,我們稱爲後驗概率(posterior probability);P(C)=P(C=1)是事件C=1發生時的概率,稱爲先驗概率(prior probabilty),因爲這是在觀察到數據x之前就已經得到的關於C的知識;P(x|C)稱爲類似然,與P(C|x)相反,表示屬於事件C的樣本觀測 值爲x的概率;P(x)表示證據(evidence),是觀測到x的邊緣概率,即:

      這裏的邊緣概率可以理解爲是x與C的聯合概率,即同時發生時的概率,由乘法原理可得上面的公式。


二、分類中的貝葉斯定理

      貝葉斯定理在分類問題中主要用來計算類的概率,即所觀測的樣本數據x屬於類C的概率。一般情況下,我們可以假設有K個互斥和窮舉的類集合C,元素個數K個,我們可以得到先驗概率滿足:

      我們根據觀測到的樣本數據x可以計算某個類的後驗概率,即:

      爲了將誤差最小化,貝葉斯分類器(Bayes' classfier)當然選擇具有最高後驗概率的類,即:


三、風險與效用度量

      有了貝葉斯定理,我們就可以試着對決策中的風險進行度量。比如我們可以定義動作α-i表示把輸入指派到類C-i的決策,而λ-ik表示實際屬於類C-k時卻指派到類C-i時的動作造成的損失,因此我們可以計算動作α-i的期望風險(expected risk):


      我們的目標就是從中選擇具有最小風險的動作。同樣,我們也可以定義效用函數:

       這裏同風險度量相反,我們來求使得效用最大的動作α-i


四、關聯規則

      關聯性分析也是機器學習中非常關注的一個方面,就貝葉斯定理應用來說,以常見的”購物籃“作爲實例,比如X和Y分別表示購買兩種商品的顧客,那麼我們有以下三個重要的度量其關聯性:

1. 關聯規則X->Y的置信度(confidence),即購買X的顧客有多大比例會同時購買Y:

2. 關聯規則X->Y的提升度(lift),又稱爲興趣度(interest),即購買X對購買Y的作用:

3. 關聯規則X->Y的支持度(support),表示規則的顯著性:




      好了,今天先到這裏,我們明天繼續!


Refer:

《機器學習導論》,Ethen Alpaydin(土耳其),機械工業出版社


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章