机器学习---监督学习之朴素贝叶斯

通过概率对某数据进行预测。


重要的是:我们必须分清楚,已知和推断。

  • 已知:小明和小红穿红色毛衣的概率
  • 推断:穿红色毛衣的概率是小明还是小红
    专业术语就是:
  • 已知:小明和小红(事件A)穿红色毛衣(事件R)的概率(P(R|A))
  • 推断:穿红色毛衣的概率是小明还是小红(P(A|R))

我们按照正常步骤求出所有事件发生的概率。

我们知道其中某个特性,找出包含这个特性的概率。

在他们之间进行预测剩下的事件概率。

就是朴素贝叶斯。


  1. 贝叶斯定理
    在这里插入图片描述
    事件A和事件B发生的各概率组合如上图所示。P(A)和P(B)的概率叫先验概率。
    现在我们想通过现有的一些条件再推其他的概率,比如:
    我们已经知道了事件R肯定发生,在这种情况下,分析A和B他们各自发生的概率。
    归一化后的概率为:
    在这里插入图片描述
    上图的P(A|B)和P(B|R)是后验概率,也就是在已知R发生条件下预测的概率。
    这就是贝叶斯定理。

  2. 例子
    已知:
    身体不舒服要去看病
    已知患病的检测率是99%,也就是来看病的100人当中有99个病了。(事件A)
    正常人中,普遍来看,患病率是0.0001也就是万分之一。健康为事件H,生病为事件S。
    推断:
    P(S)=0.0001
    P(H)=0.9999
    P(A|S) =0.99
    P(A|H) =0.01
    那么:
    患者被正确确诊的概率是?
    P(SA)=P(S)P(AS)P(S)P(AS)+P(H)P(AH)=0.0098P(S|A)=\frac{P(S)P(A|S)}{P(S)P(A|S)+P(H)P(A|H)}=0.0098
    在这里插入图片描述
    在这里插入图片描述
    这个问题应当被这么问:一个人群中的人患病并且被正确的确诊出来患病的概率是多少?
    这样再看上图就会清晰很多。

  3. 朴素贝叶斯
    上面是概率中,我们假设每件事情都是相互独立的,所以直接用乘法公式即可。
    这是一种很简单的方法,所以叫朴素贝叶斯算法。

贝叶斯基本公式:P(A|B)P(B)=P(B|A)P(A)=P(AB)
现在把P(B)去掉,这样公式就成了P(AB)P(BA)P(A)P(A|B)\propto P(B|A)P(A)
为何好好的朴素贝叶斯不用,非要用正比于呢?因为我们P(B)事件一旦多了,他们不一定是独立的,很可能是相互影响的。
我们运用正比于符号,这样虽然算出来的数据和不会为1,但是进行归一化之后就会准确很多。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章