一、条件概率定义
假设A和B是样本空间中的两个集合,我们可以很清楚的明白P(A)和P(B)分别代表集合A与集合B的概率,以及是两个集合交集的概率,即两个事件同时发生的概率。但是注意,凡是形式为P(x)的都是概率,背后本质是一个比值,那么就会有分子与分母。所以,P(A)、P(B)、,的分子是对应集合的大小,而分母则是整个样本空间的大小。所以我们就能够分析得到,P(A|B)的分母不再是整个样本空间的大小,而是某个子集的大小。通过变换分母来表达出“事件B发生的前提下事件A发生的概率”。
二、全概率定义
将样本空间划分为n个子集{B1,B2,...,Bn},将一个样本集合的求解转换为与其他样本集合交集的和,换句话就是,对一复杂事件A的概率求解问题转化为了在不同情况或不同原因 Bn下发生的简单事件的概率的求和问题。
三、贝叶斯公式定义
观察公式,本质上就是一个条件概率公式,只是分母使用全概率公式来求。我们将公式变形,因为我们要求的是在A前提下B的发生概率,我们可以将P(B)看作先验概率,即先不考虑前提条件,而P(B|A)就是后验概率,就是调整因子。那么我们如何理解这个调整因子?这个调整因子看上去没什么逻辑在里面,单纯靠公式推导出来的(其实是我看不出来)。
四、贝叶斯过滤器
利用贝叶斯思想来过滤邮件这个经典问题相信每个人都烂熟于心,在下面我记录一下,用最清楚的公式推导解释清楚。
首先,S代表垃圾邮件,H代表正常邮件。初始时,垃圾邮件与正常邮件的比例各占一半。
接着,我们统计出现过的单词的和,这两个参数是可以统计出来的,但当一个单词在S或H中没有出现时,我们将对应的P设置为1%(小概率事件发生概率)。那么当收到一封新的邮件时候,我们这样使用贝叶斯来判断这封邮件是不是垃圾邮件。当这封邮件中出现了单词Wi时,根据这个单词有以下推论。
这样,单词Wi能够表示出这封邮件有的概率是垃圾邮件。但是,一封邮件不只有一个单词,假设一封邮件中有n个单词,那么我们可以用同样的思想计算出这是垃圾邮件的概率。
这样就表示了,新邮件在出现单词W1W2...Wn的前提下是垃圾邮件的概率。那么我们如何解上式子?
首先补充一下独立事件的定义。如果两个事件相互独立,那么在一个事件一定发生的前提下,另一个事件发生的概率就等于自身的自然发生概率,即两个事件分别存在于两个不同的概率空间。
因为n个单词的出现是相互独立的,所以就会有。
将之带入式子中:
根据条件概率公式,我们有一下式子,同样带入:
上面就是根据新邮件中的单词计算为垃圾邮件的概率。我们还可以使用诸如下面的式子进行化简,这里不再赘述。
因为S与H互斥,所以有: