【机器学习】(5):贝叶斯决策

上一节我们介绍了监督学习的整体框架和基本的要点,按照总分的思考方式,接下来我们要分别介绍相应的一些算法了。今天这节我们来看看贝叶斯定理在机器学习中的应用。本章要点如下:

1. 贝叶斯定理;

2. 分类中的贝叶斯定理;

3. 风险和效用度量;

4. 关联规则;


一、贝叶斯定理

      贝叶斯定理来源于统计学中的条件概率,它可以揭示两个变量间的对应关系,基本公式如下:

      其中,P(C|x)表示观测到数据x时事件C发生的条件概率,我们称为后验概率(posterior probability);P(C)=P(C=1)是事件C=1发生时的概率,称为先验概率(prior probabilty),因为这是在观察到数据x之前就已经得到的关于C的知识;P(x|C)称为类似然,与P(C|x)相反,表示属于事件C的样本观测 值为x的概率;P(x)表示证据(evidence),是观测到x的边缘概率,即:

      这里的边缘概率可以理解为是x与C的联合概率,即同时发生时的概率,由乘法原理可得上面的公式。


二、分类中的贝叶斯定理

      贝叶斯定理在分类问题中主要用来计算类的概率,即所观测的样本数据x属于类C的概率。一般情况下,我们可以假设有K个互斥和穷举的类集合C,元素个数K个,我们可以得到先验概率满足:

      我们根据观测到的样本数据x可以计算某个类的后验概率,即:

      为了将误差最小化,贝叶斯分类器(Bayes' classfier)当然选择具有最高后验概率的类,即:


三、风险与效用度量

      有了贝叶斯定理,我们就可以试着对决策中的风险进行度量。比如我们可以定义动作α-i表示把输入指派到类C-i的决策,而λ-ik表示实际属于类C-k时却指派到类C-i时的动作造成的损失,因此我们可以计算动作α-i的期望风险(expected risk):


      我们的目标就是从中选择具有最小风险的动作。同样,我们也可以定义效用函数:

       这里同风险度量相反,我们来求使得效用最大的动作α-i


四、关联规则

      关联性分析也是机器学习中非常关注的一个方面,就贝叶斯定理应用来说,以常见的”购物篮“作为实例,比如X和Y分别表示购买两种商品的顾客,那么我们有以下三个重要的度量其关联性:

1. 关联规则X->Y的置信度(confidence),即购买X的顾客有多大比例会同时购买Y:

2. 关联规则X->Y的提升度(lift),又称为兴趣度(interest),即购买X对购买Y的作用:

3. 关联规则X->Y的支持度(support),表示规则的显著性:




      好了,今天先到这里,我们明天继续!


Refer:

《机器学习导论》,Ethen Alpaydin(土耳其),机械工业出版社


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章