深度学习和机器学习中的数学(二)——概率统计

一、概述

  1. 基本概念

在这里插入图片描述
2. 事件的运算关系

在这里插入图片描述4. 事件的运算

交换律: A U B = B U A AB = BA
结合律:(A U B) U C = A U (B U C)
分配律: A U (BC) = (A U B)(A U C); A (B U C) = (AB) U (AC)

5.   排列组合     

排列:从给定个数的元素中取出指定个数的元素进行排序
在这里插入图片描述

组合:从给定个数的元素中取出指定个数的元素,不考虑排序
在这里插入图片描述

二、概率

1. 古典概率

古典概率:古典概率通常又叫事前概率,是指随机事件中各种可能发生的结果及其出现的次数都可以由演绎和外推法得知,而无需经过任何统计试验即可计算各种可能发生结果的概率。

P(A) = 事件A包含的基本事件数 / 全部可能的基本事件

或:

P(A) = 事件A所占区域大小 / 样本空间所占区域大小

大数定理:在试验不变的条件下,重复试验次数越多,随机事件的频率近似于它的概率。重复次数越多,概率越准确。

2. 条件概率

事件A在另一个事件B已经发生条件下发生的概率,记作 P(A | B)

3. 联合概率

事件A和事件B同时发生的概率,记作 P(AB)

4. 边缘概率

在多元的概率分布中,单个随机变量的概率,记为P(A)

联合概率和边缘概率:
在这里插入图片描述

5. 判别模型和生成模型

判别模型:—— 条件概率
生成模型:—— 联合概率

6. 概率运算公式

在这里插入图片描述几种变形公式:

P(AB) = P(A | B ) P(B)
P(A | B ) = P(AB) / P(B)
P(B) = P(AB) / P(A | B )

一般常见的公式如下(这也是生成模型设计的思想): 其中:B 表示隐变量,也是原因,控制A生成的条件。

在这里插入图片描述

7. 事件独立性

事件同时发生的概率等于各自发生概率的乘积。
P(AB) = P(A)P(B)

8. 事件互斥性

事件A或事件B发生的概率等于分别发生概率的和,则A,B 互斥。
P(A +B ) =P(A) + P(B)

9、全概率

定义:

若事件A1,A2,…An构成一个完备事件组,且都有正概率,则对任意一个事件B,有如下公式成立:

在这里插入图片描述

例题:有三个箱子,第一个箱子中有4个黑球,1个白球;第二个箱子中有3个黑球,3个白球;第三个箱子中有3个黑球,5个白球。现在随机选取一个箱子,再从里面取一个求,求取出的是白球的概率。
解: 设A表示取出的是白球,Bi(i=1,2,3)表示球是从第i个箱子中取出的,很明显B1,B2,B3是一个完备事件组,其P(Bi)=1 /3, 则:
P(A) = P(A| B1)P(B1)+
P(A| B2)P(B2)+ P(A| B3)P(B3)
=1 /5 * 1 /3 + 3/6 * 1/3 + 5/8 * 1/3
= 53 / 120

10、贝叶斯定理
  1. 贝叶斯公式
    在这里插入图片描述
  2. 贝叶斯公式推导过程:
    在这里插入图片描述
    将全概率公式带入贝叶斯公式(将上面P(A)替换成下面公式):
    在这里插入图片描述
  3. 贝叶斯解释AI学习过程:

在这里插入图片描述

  1. 垃圾邮件分类

假设:总邮件有10000份,垃圾邮件2000份,现在用一些词来判段是垃圾邮件的概率是多少?
P(B|A) 其中:B 表示类别(垃圾邮件和不是垃圾邮件) A 代表词。 总体表示在该词出现的情况下邮件属于哪类邮件的概率。
在这里插入图片描述但是这里给了一个词进行预测,这肯定不合理。一般都会有多个词同时出现才能进行分类。比如现在有A1,A2,A3,A4…这么多的词。将其带入上述公式即可,可得到:p(B | A1,A2,A3…An),现在这样很难计算,所以要假设各个样本相互独立,利用朴素贝叶斯公式计算。(一般词与词之间是有联系的,所以假设各个词相互独立,会使得准确率有所下降)

11、朴素贝叶斯

朴素贝叶斯方法是在贝叶斯算法的基础上进行了相应的简化,即假定给定目标值时属性之间相互条件独立。也就是说没有哪个属性变量对于决策结果来说占有着较大的比重,也没有哪个属性变量对于决策结果占有着较小的比重。虽然这个简化方式在一定程度上降低了贝叶斯分类算法的分类效果,但是在实际的应用场景中,极大地简化了贝叶斯方法的复杂性。(百度百科)

在这里插入图片描述

三、概率分布

概率分布:表述随机变量取值的概率规律,随机变量取值的范围是[0,1], 所有取值概率的和必须为1 。

1. 六个重要的概率分布
a. 离散分布
  • 伯努利分布(两点分布 0-1分布)

伯努利试验是单次随机试验,只有"成功(值为1)"或"失败(值为0)"这两种结果,是由瑞士科学家雅各布·伯努利(1654 -1705)提出来的。

在这里插入图片描述

  • 二项分布

二项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。假设某个试验是伯努利试验,其成功概率用p表示,那么失败的概率为q=1-p。进行n次这样的试验,成功了k次,则失败次数为n-k,发生这种情况的概率可用下面公式来计算:

在这里插入图片描述

  • 泊松分布

泊松分布是二项分布的极限形式,是由二项分布的公式取极限推导而来。 因为在计算二项分布的时候需要知道总的试验次数n. 但是一般情况下总的试验次数n很难统计,将n–>无穷取极限后可得到泊松分布。(具体推导可参考这篇博客)https://blog.csdn.net/cherrylvlei/article/details/82081387

在这里插入图片描述

b. 连续分布
  1. 期望

在概率论和统计学中,数学期望(mean)(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。
注意:期望是加权平均,平均值是期望的一种特殊情况。

在这里插入图片描述

  1. 方差

方差(variance)是衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。
方差在物理上衡量它的鲁棒性。

在这里插入图片描述

  1. 协方差

协方差:衡量这两个事件的相关性。
如果Cov(X,Y) >0 表示正相关, Cov(X,Y) <0 表示负相关, Cov(X,Y)=0表示不相关

在这里插入图片描述

  • 均匀分布

连续分布取值是连续的,它的概率就是如图所示的面积。

在这里插入图片描述均匀分布的概率密度函数是:f(x) = 1 / (b-a) ,它围成的面积就是其概率。
在这里插入图片描述

  • 正态分布

在自然界与生产中,一些现象受到许多相互独立的随机因素的影响,如果每个因素所产生的影响都很微小时,总的影响可以看作是服从正态分布的。

在这里插入图片描述 1. 正态分布的均值决定中轴线,方差决定离散程度。(注意正态分布3q原则,一般在采样时进行截断采样)
2.期望为0,方差为1则为标准正态分布 。
3.标准正态分布和正态分布相互转换的公式:

在这里插入图片描述

下图可以看出,图像越紧密说明数据相关性越高,相应的方差就小。反之数据间的关联越离散,那么方差越大。
在这里插入图片描述
多维高斯分布密度函数:
在这里插入图片描述在这里插入图片描述

  • 指数分布

指数分布是两件事件发生的平均时间间隔,时间是连续变量。

常见分布的期望方差和概率密度函数

在这里插入图片描述
**** 标准化与归一化的区别 ****

  1. 标准化是把数据规范到标准正态分布上。
    在这里插入图片描述
  2. 归一化是把数据规范到[-1,1]上面。

四、参数估计

参数估计是机器学习的目标,就是通过样本来对参数进行估计。

根据从总体中抽取的随机样本来估计总体分布中未知参数的过程。从估计形式看,区分为点估计与区间估计:从构造估计量的方法讲,有矩法估计、最小二乘估计、似然估计、贝叶斯估计等。要处理两个问题:(1)求出未知参数的估计量;(2)在一定信度(可靠程度)下指出所求的估计量的精度。

1. 点估计

点估计(point estimation)是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计。

2. 区间估计

通过从总体中抽取的样本,根据一定的正确度,精度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。

2. 矩估计

在这里插入图片描述
在这里插入图片描述

3. 极大似然法

核心思想:如果在一次试验中,该事件发生了,这时候参数值应该是使得概率发生最大的那个值。简单的说就是:如果这件事发生了,那么这时候的参数就是概率发生最大的那个值。
极大似似然估计出的值一般比正常的值偏大,导致的问题就是过拟合,因为它缺乏先验。
在这里插入图片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章