数据挖掘基础方法_概率统计_1-随机事件与随机变量

一 随机事件

基础概念

  1. 随机现象
    某个动作或事情,所得结果是预先可能结果中的一个。
  2. 样本空间
    随机试验的所有可能结果组成的集合,记作Ω\Omega
  3. 样本点
    试验的每一个可能结果
  4. 随机事件
    样本空间Ω\Omega中满足一定条件的子集为随机事件
  5. 必然事件
    样本空间Ω\Omega包含所有结果,是必然事件
  6. 不可能事件
    空集

概率

1.定义:
随机试验EE的样本空间为Ω\Omega,对于每个事件AA,定义一个实数P(A)P(A)与之对应,若函数P(.)P(.)满足条件:

对每个事件AA,均有0<P(A)<=10<P(A)<=1;

P(Ω)=1P(\Omega)=1;

若事件A1,A2,A3,...A_1,A_2,A_3,...两两互斥,即对于ij=1,2,...ij,AiAj=ϕi,j=1,2,...,i \neq j ,A_i \cap A_j = \phi,均有

P(A1A2...)=P(A1)+P(A2)+...P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +...

则称P(A)P(A)为事件AA的概率。

2.主要性质:
对于任一事件AA,均有P(A)=1P(A)P(\overline{A})=1-P(A)

对于两个事件AABB,若ABA \subset B,则有

P(BA)=P(B)P(A),P(B)>P(A)P(B-A) = P(B) - P(A), P(B) >P(A)

对于任意两个事件AABB,有

P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A\cap B)

古典概型

  • 样本空间有限
  • 每个样本点出现概率相等
  • 每次实验有且仅有一个样本点发生

我们将掷骰子游戏进行推广,设随机事件 EE 的样本空间中只有有限个样本点,即 Ω=ω1,ω2,...,ωn\Omega= { \omega_1, \omega_2,..., \omega_n },其中, nn 为样本点的总数。每个样本点ωi(i=1,2,...,n)\omega_i (i =1,2,...,n)出现是等可能的,并且每次试验有且仅有一个样本点发生,则称这类现象为古典概型。若事件 AA 包含个mm 个样本点,则事件 AA 的概率定义为:

P(A)=mn=AP(A) = \frac{m} {n} = \frac{事件A包含的基本事件数} {基本事件总数}

古典概型是不是很简单,接下来我们基于古典概型进行例题的推广。坐好了,下面的知识点会涉及排列组合。
​ 假设有 kk 个不同颜色的球,每个球以同样的概率 1/l1/l 落到 ll 个格子 (l>=k)(l>=k) 的每个中,且每个格子可容纳任意多个球。问,分别求出如下两个事件 AABB 的概率。

AA :指定的 kk 个格子中各有一个球;
BB :存在 kk 个格子,其中各有一个球。
我们思考一下,由于每个球可以平均地落入 ll 个格子中的任一个,并且每一个格子中可落入任意多个球,所以 kk 个球落入 ll 个格子中的分布情况相当于从 ll 个格子中选取 kk 个的可重复排列,故样本空间共有 lkl^k 种等可能的基本结果。

​ 所以,事件 AA 所含基本结果数应是 kk 个球在指定的 ll 个格子中的全排列数,即 k!k!,那么有

P(A)=k!lkP(A) = \frac{k!} {l^k}

​ 为了算出事件 BB 所含的基本事件数,我们可以分两步进行:因为 ll 个格子可以是任意选取的,故可先从 ll 个格子中任意选出 kk 个出来,那么选法共有 ClkC^k_l 种。对于每种选定的 kk 个格子,依上述各有一个球的推理,则有 k!k!个基本结果,故B含有 ClkkC^k_l*k! 个基本结果。那么有

P(B)=Clkklk=llklk!P(B) = \frac {C^k_lk!} {l^k} = \frac {l!} {l^k(l-k)!}

​ 我们把上述例子应有到具体的问题中,概率论的历史上有一个颇为著名的问题生日问题:求 kk 个同班同学没有两人生日相同的概率。

​ 如果把这 kk 个同学看作上例中的 kk 个球,而把一年365天看作格子,即 l=365l=365 ,则上述的 P(B)P(B)就是所要求的概率。我们令 k=40k=40 时,利用上面的公式,则 P(B)=0.109P(B) =0.109。换句话说,40个同学中至少两个人同一天过生日的概率是:P(B)=10.109=0.891P(\overline {B}) = 1 - 0.109 =0.891。其概率大的出乎意料。

这讲内容更多地是对概念知识的理解,不太涉及软件的实现,给出简单的 P(B)P(B) Python实现:

#我们采用函数的递归的方法计算阶乘:
def factorial(n):
    if n == 0:
        return 1;
    else:
        return (n*factorial(n-1)) 
    
l_fac = factorial(365);          #l的阶乘
l_k_fac = factorial(365-40)      #l-k的阶乘
l_k_exp = 365**40                #l的k次方

P_B =  l_fac /(l_k_fac * l_k_exp)     #P(B)
print("事件B的概率为:",P_B)
print("40个同学中至少两个人同一天过生日的概率是:",1 - P_B)

条件概率

引子:
研究随机事件之间的关系时,在已知某些事件发生的条件下考虑另一些事件发生的概率规律有无变化及如何变化,是十分重要的。我们先给出定义,然后进行例子的讲解与描述。

定义:
AABB 是两个事件,且P(B)>0P(B)>0,称 P(AB)=P(AB)P(B)P(A|B) = \frac {P(AB)} {P(B)} 为在事件 BB 发生的条件下,事件 AA 发生的概率。

例子:
​ 某集体中有 NN 个男人和 MM 个女人,其中患色盲者男性 nn 人,女性 mm 人。我们用 Ω\Omega 表示该集体, AA 表示其中全体女性的集合,BB 表示其中全体色盲者的集合。如果从 Ω\Omega 中随意抽取一人,则这个人分别是女性、色盲者和同时既为女性又是色盲者的概率分别为:

P(A)=MM+N,P(B)=m+nM+N,P(AB)=mM+NP(A) = \frac {M} {M+N} , P(B) = \frac {m+n} {M+N} , P(AB) = \frac {m} {M+N}

如果限定只从女性中随机抽取一人**(即事件 AA 已发生),那么这个女人为色盲者的(条件)**概率为

P(BA)=mM=P(AB)P(A)P(B|A) = \frac {m} {M} = \frac {P(AB)} {P(A)}

全概率公式和贝叶斯公式
<1>准备知识
首先我们看一下概率乘法公式和样本空间划分的定义;

由条件概率公式,可以得到概率的乘法公式

P(AB)=P(BA)P(A)=P(AB)P(B)P(AB)=P(B|A)P(A) =P(A|B)P(B)

如果事件组,满足

B1,B2,...B_1,B_2,... 两两互斥,即BiBj=ϕij,i,j=1,2,...B_i\cap B_j = \phi,i \neq j ,i,j = 1,2,...,且P(Bi)>0,i=1,2,...P(B_i)>0,i=1,2,...
B1B2...=ΩB_1 \cup B_2 \cup ... = \Omega
​ 则称事件组B1,B2,...B_1,B_2,...是样本空间 Ω\Omega 的一个划分。

<2>全概率公式

B1,B2,...B_1,B_2,...是样本空间 Ω\Omega 的一个划分,AA 为任一事件,则

P(A)=i=1P(Bi)P(ABi)P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i)

称为全概率公式。
<3>贝叶斯公式
根据全概率公式和概率乘法公式,我们可以得到 贝叶斯公式:
B1,B2,...B_1,B_2,...是样本空间 Ω\Omega 的一个划分,则对任一事件 A(P(A)>0)A(P(A)>0) ,有

P(BiA)=P(BiA)P(A)=P(ABi)P(Bi)j=1P(Bj)P(ABj),i=1,2,...P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...

称上式为贝叶斯公式,称P(Bi)(i=1,2,...)P(B_i)(i=1,2,...) 为先验概率,P(BiA)i=1,2,...P(B_i|A)(i=1,2,...)为后验概率。

<3>例子:
有点懵…,不急,我们看下面的例子吧。
​ 在实际中,常取对样本空间 Ω\Omega 的有限划分 B1,B2,...,BnB_1,B_2,...,B_nBiB_i 视为导致试验结果 AA 发生的“原因”,而P(Bi)P(B_i) 表示各种“原因”发生的可能性大小,故称为先验概率;P(BiA)P(B_i|A) 则反应当试验产生了结果 AA 之后,再对各种“原因”概率的新认识,故称为后验概率 。

​ 假定用血清甲胎蛋白法诊断肝癌。用 CC 表示被检验者有肝癌这一事件,用 AA 表示被检验者为阳性反应这一事件。当前有肝癌的患者被检测呈阳性反应的概率为0.95。即 P(AC)=0.95P(A|C) = 0.95 。当前非肝癌的患者被检测呈阴性反应的概率为0.9。即 P(AC)=0.90P(\overline {A}|\overline {C}) = 0.90 。若某人群中肝癌患者概率为0.0004,即P(C)=0.0004P(C) = 0.0004,现在有一人呈阳性反应,求此人确为肝癌患者的概率是多少?

解:

P(CA)=P(C)P(AC)P(C)P(AC)+P(C)P(AC)=0.00040.950.00040.95+0.99960.1=0.0038P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.00040.95}{0.00040.95 + 0.9996*0.1} =0.0038

贝叶斯公式也是在机器学习中朴素贝叶斯的核心,请大家予以重视~!

二 随机变量

1.随机变量及其分布

随机变量定义:

EE 是随机试验,Ω\Omega 是样本空间,如果对于每一个 ωΩ\omega \in \Omega 。都有一个确定的实数 X(ω)X(\omega) 与之对应,若对于任意实 xRx \in R , 有 ωX(ω)<xF{\omega :X(\omega) < x } \in F ,则称 Ω\Omega 上的单值实函数 X(ω)X(\omega) 为一个随机变量。

​ 从定义可知随机变量是定义在样本空间 Ω\Omega 上,取值在实数域上的函数。由于它的自变量是随机试验的结果,而随机试验结果的出现具有随机性,因此,随机变量的取值也具有一定的随机性。这是随机变量与普通函数的不同之处。

描述一个随机变量,不仅要说明它能够取那些值,而且还要关心它取这些值的概率。因此,接下来引入随机变量的分布函数的概念。
随机变量的分布函数定义:

​ 设 XX 是一个随机变量,对任意的实数 xx ,令 F(x)=PX<=x,x(,+)F(x) =P _{X<=x} ,x\in (- \infty ,+ \infty)​ 则称 F(x)F(x) 为随机变量 xx 的分布函数,也称为概率累积函数

直观上看,分布函数 F(x)F(x) 是一个定义在 (,+)(- \infty, + \infty) 上的实值函数, F(x)F(x)在点 xx 处取值为随机变量 XX 落在区间 (,+x](- \infty, + x]上的概率 。分布函数(概率累积函数)很好理解,就是在一个区间范围内概率函数的累加。这个区间就是负无穷到当前节点。

2. 离散型随机变量

​ 如果随机变量 XX 的全部可能取值只有有限多个或可列无穷多个,则称 XX 为离散型随机变量。掷骰子的结果就是离散型随机变量。

对于离散型随机变量 XX 可能取值为 xkx_k的概率为PX=xk=pk,k=1,2,... P _{ X =x_k } =p_k,k=1,2,... 则称上式为离散型随机变量 XX 的分布律。

我们可以用下表来表示分布律:
XX x1x_1 x2x_2xnx_n
pkp_k p1p_1 p2p_2pnp_n
离散型随机变量的分布函数为F(x)=PX<=x=xk<=xPX=xk=xk<=xPk F (x) = P _{ X<=x } =\sum_{x_k <=x}{ P _{ X=x_k } } = \sum_{x_k <=x}{ P_k}

3.常见的离散型分布

<1>.伯努利实验,二项分布
定义:

如果一个随机试验只有两种可能的结果 AAA\overline A,并且

P(A)=pP(A)=1p=q P(A) = p,P(\overline A) =1-p=q

其中, 0<p<10<p<1 ,则称此试验为Bernoulli(伯努利)试验. Bernoulli试验独立重复进行 nn 次,称为 nn 重伯努利试验。

看例子
从一批产品中检验次品,在其中进行有放回抽样 nn 次,抽到次品称为“成功”,抽到正品称为“失败“,这就是 nn 重Bernoulli试验。

A={nAk} A = \{ n重伯努利试验中A出现k次\} P(Ak=Cnkpk(1p)nk,k=0,1,2,...n. P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. 这就是著名的二项分布,常记作 B(nkB(n,k)

解释:一共抽了 nn 次,k(k<n)k(k<n) 次抽中了 AA ,概率为 pp ,那么 nkn-k 次抽中了非 AA,概率为 1p1-p 组合的次数就是 CnkC^k_n 。所以 P(Ak=Cnkpk(1p)nk,k=0,1,2,...n.P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.

分布函数:
若随机变量 XX 的分布律为: PX=k=Cnkpk(1p)nk,k=0,1,2,...n. P _{ X =k } =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. 其分布函数为: Fx=k=[x]Cnkpk(1p)nk,k=0,1,2,...n. F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n. 其中, [x][x] 表示下取整,即不超过 xx 的最大整数。

4.随机变量的数字特征

<1>.数学期望
离散型:设离散型随机变量 XX 的分布律为 PX=xi=pi,i=12...P _{ X=x_i} = p_i ,i =1,2,... 若级数 ixipi\sum_{i} {|x_i|p_i} 收敛,

(收敛指会聚于一点,向某一值靠近,相对于发散)。则称级数 ixipi\sum_{i} {x_ip_i}的和为随机变量 XX 的数学期望。记为 E(X)E(X) ,即:

E(X)=ixipi E(X) = \sum_{i} {x_ip_i}

设连续型随机变量 XX 的概率密度函数为 f(x)f(x) ,若积分 +xfxdx\int_{- \infty}^{+ \infty}{|x|f(x)}dx 收敛, 称积分 +xfxdx\int_{- \infty}^{+ \infty}{xf(x)}dx 的值为随机变量 XX 的数学期望,记为 E(X)E(X) ,即: E(X)=+xfxdx E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx E(X)E(X) 又称为均值。
数学期望代表了随机变量取值的平均值,是一个重要的数字特征。数学期望具有如下性质:

cc 是常数,则 E(c)=cE(c) =c ;
E(aX+bY)=aE(X)+bE(Y)E(aX+bY) = aE(X) +bE(Y) , 其中a, b为任意常数;
X,YX, Y 相互独立,则E(XY)=E(X)E(Y)E(XY) = E(X)E(Y) ; (相互独立就是没有关系,不相互影响)。
<2>.方差
XX 为随机变量,如果 E{[XE(X)]2}E\{ [X-E(X)]^2\} 存在,则称 E{[XE(X)]2}E\{ [X-E(X)]^2\}XX 的方差。记为 Var(X)Var(X) , 即:
VarX=E{[XE(X)]2}Var (X) =E\{ [X-E(X)]^2\}

​ 并且称 Var(X)\sqrt{Var(X)}XX 的标准差或均方差。

方差是用来描述随机变量取值相对于均值的离散程度的一个量,也是非常重要的数字特征。方差有如下性质:

  • cc 是常数,则 Var(c)=0Var(c) =0 ;
  • Var(aX+b)=a2Var(X)Var(aX+b) = a^2Var(X) , 其中a, b为任意常数;
  • X,YX, Y 相互独立,则Var(X+Y)=Var(X)+Var(Y)Var(X\underline+Y) = Var(X) +Var(Y)

<3>协方差和相关系数
协方差和相关系数都是描述随机变量 XX 与随机变量 YY 之间的线性联系程度的数字量。

X,YX, Y 为两个随机变量,称 E{[XE(X)][YE(Y)]}E\{ [X-E(X)] [Y-E(Y)]\}XXYY 的协方差,记为 Cov(X,Y)Cov(X, Y),即: Cov(X,Y)=E{[XE(X)][YE(Y)]}Cov(X, Y) = E\{ [X-E(X)] [Y-E(Y)]\} 协方差有如下性质:

Cov(X,Y)=Cov(Y,X)Cov(X, Y) = Cov(Y, X) ;

Cov(aX+bcY+d)=acCov(XY)Cov(aX+b,cY+d) =ac Cov( X,Y) ,其中, a,b,c,da,b,c,d 为任意常数;

Cov(X1+X2Y)=Cov(X1Y)+Cov(X2Y)Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y) ;

Cov(XY)=E(XY)E(X)E(Y)Cov(X,Y) =E( X,Y) -E( X)E(Y) ; 当 X,YX,Y 相互独立时,有 Cov(XY)=0Cov(X,Y) = 0;

Cov(XY)=Var(X)Var(Y)|Cov(X,Y)| = \sqrt {Var(X)} \sqrt {Var(Y)};

Cov(XX)=Var(X)Cov(X,X) =Var( X) ;

Var(X)>0Var(Y)>0\sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0 时,称 ρX,Y=Cov(XY)Var(X)Var(Y)\rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}}X,YX,Y 的相关系数,它是无纲量的量(也就是说没有单位,只是个代数值)。

基本上我们都会用相关系数来衡量两个变量之间的相关程度。相关系数在-1到1之间,小于零表示负相关,大于零表示正相关。绝对值 ρX,Y|\rho(X,Y)| 表示相关度的大小。越接近1,相关度越大。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章