机器学习---监督学习之朴素贝叶斯

原創

I_AM_KK

2020-06-12 19:34

通过概率对某数据进行预测。

重要的是：我们必须分清楚，已知和推断。

已知：小明和小红穿红色毛衣的概率
推断：穿红色毛衣的概率是小明还是小红
专业术语就是：
已知：小明和小红（事件A）穿红色毛衣（事件R）的概率（P(R|A)）
推断：穿红色毛衣的概率是小明还是小红(P(A|R))

我们按照正常步骤求出所有事件发生的概率。

我们知道其中某个特性，找出包含这个特性的概率。

在他们之间进行预测剩下的事件概率。

就是朴素贝叶斯。

贝叶斯定理

事件A和事件B发生的各概率组合如上图所示。P(A)和P(B)的概率叫先验概率。
现在我们想通过现有的一些条件再推其他的概率，比如：
我们已经知道了事件R肯定发生，在这种情况下，分析A和B他们各自发生的概率。
归一化后的概率为：

上图的P(A|B)和P(B|R)是后验概率，也就是在已知R发生条件下预测的概率。
这就是贝叶斯定理。
例子
已知：
身体不舒服要去看病
已知患病的检测率是99%，也就是来看病的100人当中有99个病了。(事件A)
正常人中，普遍来看，患病率是0.0001也就是万分之一。健康为事件H，生病为事件S。
推断：
P(S)=0.0001
P(H)=0.9999
P(A|S) =0.99
P(A|H) =0.01
那么：
患者被正确确诊的概率是？
$P(S|A)=\frac{P(S)P(A|S)}{P(S)P(A|S)+P(H)P(A|H)}=0.0098$

这个问题应当被这么问：一个人群中的人患病并且被正确的确诊出来患病的概率是多少?
这样再看上图就会清晰很多。
朴素贝叶斯
上面是概率中，我们假设每件事情都是相互独立的，所以直接用乘法公式即可。
这是一种很简单的方法，所以叫朴素贝叶斯算法。

贝叶斯基本公式：P(A|B)P(B)=P(B|A)P(A)=P(AB)
现在把P(B)去掉，这样公式就成了 $P(A|B)\propto P(B|A)P(A)$
为何好好的朴素贝叶斯不用，非要用正比于呢？因为我们P(B)事件一旦多了，他们不一定是独立的，很可能是相互影响的。
我们运用正比于符号，这样虽然算出来的数据和不会为1，但是进行归一化之后就会准确很多。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

机器学习---监督学习之朴素贝叶斯

Wireshark 安装+使用（一）

折半查找的非遞歸算法和遞歸算法C++

c++把字符串形式數字轉換爲數字

hint: Updates were rejected because the remote contains work that you do hint: not have locally.

F#入門學習（二）

Python之for循環和range（）函數

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結