數據挖掘基礎方法_概率統計_1-隨機事件與隨機變量

一 隨機事件

基礎概念

  1. 隨機現象
    某個動作或事情,所得結果是預先可能結果中的一個。
  2. 樣本空間
    隨機試驗的所有可能結果組成的集合,記作Ω\Omega
  3. 樣本點
    試驗的每一個可能結果
  4. 隨機事件
    樣本空間Ω\Omega中滿足一定條件的子集爲隨機事件
  5. 必然事件
    樣本空間Ω\Omega包含所有結果,是必然事件
  6. 不可能事件
    空集

概率

1.定義:
隨機試驗EE的樣本空間爲Ω\Omega,對於每個事件AA,定義一個實數P(A)P(A)與之對應,若函數P(.)P(.)滿足條件:

對每個事件AA,均有0<P(A)<=10<P(A)<=1;

P(Ω)=1P(\Omega)=1;

若事件A1,A2,A3,...A_1,A_2,A_3,...兩兩互斥,即對於ij=1,2,...ij,AiAj=ϕi,j=1,2,...,i \neq j ,A_i \cap A_j = \phi,均有

P(A1A2...)=P(A1)+P(A2)+...P(A_1 \cup A_2 \cup ...)=P(A_1) +P(A_2) +...

則稱P(A)P(A)爲事件AA的概率。

2.主要性質:
對於任一事件AA,均有P(A)=1P(A)P(\overline{A})=1-P(A)

對於兩個事件AABB,若ABA \subset B,則有

P(BA)=P(B)P(A),P(B)>P(A)P(B-A) = P(B) - P(A), P(B) >P(A)

對於任意兩個事件AABB,有

P(AB)=P(A)+P(B)P(AB)P(A \cup B) = P(A) + P(B) - P(A\cap B)

古典概型

  • 樣本空間有限
  • 每個樣本點出現概率相等
  • 每次實驗有且僅有一個樣本點發生

我們將擲骰子游戲進行推廣,設隨機事件 EE 的樣本空間中只有有限個樣本點,即 Ω=ω1,ω2,...,ωn\Omega= { \omega_1, \omega_2,..., \omega_n },其中, nn 爲樣本點的總數。每個樣本點ωi(i=1,2,...,n)\omega_i (i =1,2,...,n)出現是等可能的,並且每次試驗有且僅有一個樣本點發生,則稱這類現象爲古典概型。若事件 AA 包含個mm 個樣本點,則事件 AA 的概率定義爲:

P(A)=mn=AP(A) = \frac{m} {n} = \frac{事件A包含的基本事件數} {基本事件總數}

古典概型是不是很簡單,接下來我們基於古典概型進行例題的推廣。坐好了,下面的知識點會涉及排列組合。
​ 假設有 kk 個不同顏色的球,每個球以同樣的概率 1/l1/l 落到 ll 個格子 (l>=k)(l>=k) 的每個中,且每個格子可容納任意多個球。問,分別求出如下兩個事件 AABB 的概率。

AA :指定的 kk 個格子中各有一個球;
BB :存在 kk 個格子,其中各有一個球。
我們思考一下,由於每個球可以平均地落入 ll 個格子中的任一個,並且每一個格子中可落入任意多個球,所以 kk 個球落入 ll 個格子中的分佈情況相當於從 ll 個格子中選取 kk 個的可重複排列,故樣本空間共有 lkl^k 種等可能的基本結果。

​ 所以,事件 AA 所含基本結果數應是 kk 個球在指定的 ll 個格子中的全排列數,即 k!k!,那麼有

P(A)=k!lkP(A) = \frac{k!} {l^k}

​ 爲了算出事件 BB 所含的基本事件數,我們可以分兩步進行:因爲 ll 個格子可以是任意選取的,故可先從 ll 個格子中任意選出 kk 個出來,那麼選法共有 ClkC^k_l 種。對於每種選定的 kk 個格子,依上述各有一個球的推理,則有 k!k!個基本結果,故B含有 ClkkC^k_l*k! 個基本結果。那麼有

P(B)=Clkklk=llklk!P(B) = \frac {C^k_lk!} {l^k} = \frac {l!} {l^k(l-k)!}

​ 我們把上述例子應有到具體的問題中,概率論的歷史上有一個頗爲著名的問題生日問題:求 kk 個同班同學沒有兩人生日相同的概率。

​ 如果把這 kk 個同學看作上例中的 kk 個球,而把一年365天看作格子,即 l=365l=365 ,則上述的 P(B)P(B)就是所要求的概率。我們令 k=40k=40 時,利用上面的公式,則 P(B)=0.109P(B) =0.109。換句話說,40個同學中至少兩個人同一天過生日的概率是:P(B)=10.109=0.891P(\overline {B}) = 1 - 0.109 =0.891。其概率大的出乎意料。

這講內容更多地是對概念知識的理解,不太涉及軟件的實現,給出簡單的 P(B)P(B) Python實現:

#我們採用函數的遞歸的方法計算階乘:
def factorial(n):
    if n == 0:
        return 1;
    else:
        return (n*factorial(n-1)) 
    
l_fac = factorial(365);          #l的階乘
l_k_fac = factorial(365-40)      #l-k的階乘
l_k_exp = 365**40                #l的k次方

P_B =  l_fac /(l_k_fac * l_k_exp)     #P(B)
print("事件B的概率爲:",P_B)
print("40個同學中至少兩個人同一天過生日的概率是:",1 - P_B)

條件概率

引子:
研究隨機事件之間的關係時,在已知某些事件發生的條件下考慮另一些事件發生的概率規律有無變化及如何變化,是十分重要的。我們先給出定義,然後進行例子的講解與描述。

定義:
AABB 是兩個事件,且P(B)>0P(B)>0,稱 P(AB)=P(AB)P(B)P(A|B) = \frac {P(AB)} {P(B)} 爲在事件 BB 發生的條件下,事件 AA 發生的概率。

例子:
​ 某集體中有 NN 個男人和 MM 個女人,其中患色盲者男性 nn 人,女性 mm 人。我們用 Ω\Omega 表示該集體, AA 表示其中全體女性的集合,BB 表示其中全體色盲者的集合。如果從 Ω\Omega 中隨意抽取一人,則這個人分別是女性、色盲者和同時既爲女性又是色盲者的概率分別爲:

P(A)=MM+N,P(B)=m+nM+N,P(AB)=mM+NP(A) = \frac {M} {M+N} , P(B) = \frac {m+n} {M+N} , P(AB) = \frac {m} {M+N}

如果限定只從女性中隨機抽取一人**(即事件 AA 已發生),那麼這個女人爲色盲者的(條件)**概率爲

P(BA)=mM=P(AB)P(A)P(B|A) = \frac {m} {M} = \frac {P(AB)} {P(A)}

全概率公式和貝葉斯公式
<1>準備知識
首先我們看一下概率乘法公式和樣本空間劃分的定義;

由條件概率公式,可以得到概率的乘法公式

P(AB)=P(BA)P(A)=P(AB)P(B)P(AB)=P(B|A)P(A) =P(A|B)P(B)

如果事件組,滿足

B1,B2,...B_1,B_2,... 兩兩互斥,即BiBj=ϕij,i,j=1,2,...B_i\cap B_j = \phi,i \neq j ,i,j = 1,2,...,且P(Bi)>0,i=1,2,...P(B_i)>0,i=1,2,...
B1B2...=ΩB_1 \cup B_2 \cup ... = \Omega
​ 則稱事件組B1,B2,...B_1,B_2,...是樣本空間 Ω\Omega 的一個劃分。

<2>全概率公式

B1,B2,...B_1,B_2,...是樣本空間 Ω\Omega 的一個劃分,AA 爲任一事件,則

P(A)=i=1P(Bi)P(ABi)P(A) = \sum_{i=1}^{\infty } {P(B_i)}P(A|B_i)

稱爲全概率公式。
<3>貝葉斯公式
根據全概率公式和概率乘法公式,我們可以得到 貝葉斯公式:
B1,B2,...B_1,B_2,...是樣本空間 Ω\Omega 的一個劃分,則對任一事件 A(P(A)>0)A(P(A)>0) ,有

P(BiA)=P(BiA)P(A)=P(ABi)P(Bi)j=1P(Bj)P(ABj),i=1,2,...P(B_i|A) =\frac {P(B_i A)} {P(A)} = \frac {P(A|B_i )P(B_i)} {\sum_{j=1}^{\infty }P( B_j)P(A|B_j)} ,i=1,2,...

稱上式爲貝葉斯公式,稱P(Bi)(i=1,2,...)P(B_i)(i=1,2,...) 爲先驗概率,P(BiA)i=1,2,...P(B_i|A)(i=1,2,...)爲後驗概率。

<3>例子:
有點懵…,不急,我們看下面的例子吧。
​ 在實際中,常取對樣本空間 Ω\Omega 的有限劃分 B1,B2,...,BnB_1,B_2,...,B_nBiB_i 視爲導致試驗結果 AA 發生的“原因”,而P(Bi)P(B_i) 表示各種“原因”發生的可能性大小,故稱爲先驗概率;P(BiA)P(B_i|A) 則反應當試驗產生了結果 AA 之後,再對各種“原因”概率的新認識,故稱爲後驗概率 。

​ 假定用血清甲胎蛋白法診斷肝癌。用 CC 表示被檢驗者有肝癌這一事件,用 AA 表示被檢驗者爲陽性反應這一事件。當前有肝癌的患者被檢測呈陽性反應的概率爲0.95。即 P(AC)=0.95P(A|C) = 0.95 。當前非肝癌的患者被檢測呈陰性反應的概率爲0.9。即 P(AC)=0.90P(\overline {A}|\overline {C}) = 0.90 。若某人羣中肝癌患者概率爲0.0004,即P(C)=0.0004P(C) = 0.0004,現在有一人呈陽性反應,求此人確爲肝癌患者的概率是多少?

解:

P(CA)=P(C)P(AC)P(C)P(AC)+P(C)P(AC)=0.00040.950.00040.95+0.99960.1=0.0038P(C|A) = \frac {P(C)P(A|C)} {P(C)P(A|C)+P(\overline {C} )P(A|\overline {C})} =\frac {0.00040.95}{0.00040.95 + 0.9996*0.1} =0.0038

貝葉斯公式也是在機器學習中樸素貝葉斯的核心,請大家予以重視~!

二 隨機變量

1.隨機變量及其分佈

隨機變量定義:

EE 是隨機試驗,Ω\Omega 是樣本空間,如果對於每一個 ωΩ\omega \in \Omega 。都有一個確定的實數 X(ω)X(\omega) 與之對應,若對於任意實 xRx \in R , 有 ωX(ω)<xF{\omega :X(\omega) < x } \in F ,則稱 Ω\Omega 上的單值實函數 X(ω)X(\omega) 爲一個隨機變量。

​ 從定義可知隨機變量是定義在樣本空間 Ω\Omega 上,取值在實數域上的函數。由於它的自變量是隨機試驗的結果,而隨機試驗結果的出現具有隨機性,因此,隨機變量的取值也具有一定的隨機性。這是隨機變量與普通函數的不同之處。

描述一個隨機變量,不僅要說明它能夠取那些值,而且還要關心它取這些值的概率。因此,接下來引入隨機變量的分佈函數的概念。
隨機變量的分佈函數定義:

​ 設 XX 是一個隨機變量,對任意的實數 xx ,令 F(x)=PX<=x,x(,+)F(x) =P _{X<=x} ,x\in (- \infty ,+ \infty)​ 則稱 F(x)F(x) 爲隨機變量 xx 的分佈函數,也稱爲概率累積函數

直觀上看,分佈函數 F(x)F(x) 是一個定義在 (,+)(- \infty, + \infty) 上的實值函數, F(x)F(x)在點 xx 處取值爲隨機變量 XX 落在區間 (,+x](- \infty, + x]上的概率 。分佈函數(概率累積函數)很好理解,就是在一個區間範圍內概率函數的累加。這個區間就是負無窮到當前節點。

2. 離散型隨機變量

​ 如果隨機變量 XX 的全部可能取值只有有限多個或可列無窮多個,則稱 XX 爲離散型隨機變量。擲骰子的結果就是離散型隨機變量。

對於離散型隨機變量 XX 可能取值爲 xkx_k的概率爲PX=xk=pk,k=1,2,... P _{ X =x_k } =p_k,k=1,2,... 則稱上式爲離散型隨機變量 XX 的分佈律。

我們可以用下表來表示分佈律:
XX x1x_1 x2x_2xnx_n
pkp_k p1p_1 p2p_2pnp_n
離散型隨機變量的分佈函數爲F(x)=PX<=x=xk<=xPX=xk=xk<=xPk F (x) = P _{ X<=x } =\sum_{x_k <=x}{ P _{ X=x_k } } = \sum_{x_k <=x}{ P_k}

3.常見的離散型分佈

<1>.伯努利實驗,二項分佈
定義:

如果一個隨機試驗只有兩種可能的結果 AAA\overline A,並且

P(A)=pP(A)=1p=q P(A) = p,P(\overline A) =1-p=q

其中, 0<p<10<p<1 ,則稱此試驗爲Bernoulli(伯努利)試驗. Bernoulli試驗獨立重複進行 nn 次,稱爲 nn 重伯努利試驗。

看例子
從一批產品中檢驗次品,在其中進行有放回抽樣 nn 次,抽到次品稱爲“成功”,抽到正品稱爲“失敗“,這就是 nn 重Bernoulli試驗。

A={nAk} A = \{ n重伯努利試驗中A出現k次\} P(Ak=Cnkpk(1p)nk,k=0,1,2,...n. P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. 這就是著名的二項分佈,常記作 B(nkB(n,k)

解釋:一共抽了 nn 次,k(k<n)k(k<n) 次抽中了 AA ,概率爲 pp ,那麼 nkn-k 次抽中了非 AA,概率爲 1p1-p 組合的次數就是 CnkC^k_n 。所以 P(Ak=Cnkpk(1p)nk,k=0,1,2,...n.P(A_k) =C^k_np^k(1-p)^{n-k},k=0,1,2,...n.

分佈函數:
若隨機變量 XX 的分佈律爲: PX=k=Cnkpk(1p)nk,k=0,1,2,...n. P _{ X =k } =C^k_np^k(1-p)^{n-k},k=0,1,2,...n. 其分佈函數爲: Fx=k=[x]Cnkpk(1p)nk,k=0,1,2,...n. F(x) = \sum_{k=}^{[x]} {C^k_np^k(1-p)^{n-k}},k=0,1,2,...n. 其中, [x][x] 表示下取整,即不超過 xx 的最大整數。

4.隨機變量的數字特徵

<1>.數學期望
離散型:設離散型隨機變量 XX 的分佈律爲 PX=xi=pi,i=12...P _{ X=x_i} = p_i ,i =1,2,... 若級數 ixipi\sum_{i} {|x_i|p_i} 收斂,

(收斂指會聚於一點,向某一值靠近,相對於發散)。則稱級數 ixipi\sum_{i} {x_ip_i}的和爲隨機變量 XX 的數學期望。記爲 E(X)E(X) ,即:

E(X)=ixipi E(X) = \sum_{i} {x_ip_i}

設連續型隨機變量 XX 的概率密度函數爲 f(x)f(x) ,若積分 +xfxdx\int_{- \infty}^{+ \infty}{|x|f(x)}dx 收斂, 稱積分 +xfxdx\int_{- \infty}^{+ \infty}{xf(x)}dx 的值爲隨機變量 XX 的數學期望,記爲 E(X)E(X) ,即: E(X)=+xfxdx E(X)= \int_{- \infty}^{+ \infty}{xf(x)}dx E(X)E(X) 又稱爲均值。
數學期望代表了隨機變量取值的平均值,是一個重要的數字特徵。數學期望具有如下性質:

cc 是常數,則 E(c)=cE(c) =c ;
E(aX+bY)=aE(X)+bE(Y)E(aX+bY) = aE(X) +bE(Y) , 其中a, b爲任意常數;
X,YX, Y 相互獨立,則E(XY)=E(X)E(Y)E(XY) = E(X)E(Y) ; (相互獨立就是沒有關係,不相互影響)。
<2>.方差
XX 爲隨機變量,如果 E{[XE(X)]2}E\{ [X-E(X)]^2\} 存在,則稱 E{[XE(X)]2}E\{ [X-E(X)]^2\}XX 的方差。記爲 Var(X)Var(X) , 即:
VarX=E{[XE(X)]2}Var (X) =E\{ [X-E(X)]^2\}

​ 並且稱 Var(X)\sqrt{Var(X)}XX 的標準差或均方差。

方差是用來描述隨機變量取值相對於均值的離散程度的一個量,也是非常重要的數字特徵。方差有如下性質:

  • cc 是常數,則 Var(c)=0Var(c) =0 ;
  • Var(aX+b)=a2Var(X)Var(aX+b) = a^2Var(X) , 其中a, b爲任意常數;
  • X,YX, Y 相互獨立,則Var(X+Y)=Var(X)+Var(Y)Var(X\underline+Y) = Var(X) +Var(Y)

<3>協方差和相關係數
協方差和相關係數都是描述隨機變量 XX 與隨機變量 YY 之間的線性聯繫程度的數字量。

X,YX, Y 爲兩個隨機變量,稱 E{[XE(X)][YE(Y)]}E\{ [X-E(X)] [Y-E(Y)]\}XXYY 的協方差,記爲 Cov(X,Y)Cov(X, Y),即: Cov(X,Y)=E{[XE(X)][YE(Y)]}Cov(X, Y) = E\{ [X-E(X)] [Y-E(Y)]\} 協方差有如下性質:

Cov(X,Y)=Cov(Y,X)Cov(X, Y) = Cov(Y, X) ;

Cov(aX+bcY+d)=acCov(XY)Cov(aX+b,cY+d) =ac Cov( X,Y) ,其中, a,b,c,da,b,c,d 爲任意常數;

Cov(X1+X2Y)=Cov(X1Y)+Cov(X2Y)Cov(X_1+X_2,Y) =Cov( X_1,Y) +Cov( X_2,Y) ;

Cov(XY)=E(XY)E(X)E(Y)Cov(X,Y) =E( X,Y) -E( X)E(Y) ; 當 X,YX,Y 相互獨立時,有 Cov(XY)=0Cov(X,Y) = 0;

Cov(XY)=Var(X)Var(Y)|Cov(X,Y)| = \sqrt {Var(X)} \sqrt {Var(Y)};

Cov(XX)=Var(X)Cov(X,X) =Var( X) ;

Var(X)>0Var(Y)>0\sqrt {Var(X)} >0 ,\sqrt {Var(Y)} >0 時,稱 ρX,Y=Cov(XY)Var(X)Var(Y)\rho(X,Y) = \frac{Cov(X,Y)}{\sqrt {Var(X)} \sqrt {Var(Y)}}X,YX,Y 的相關係數,它是無綱量的量(也就是說沒有單位,只是個代數值)。

基本上我們都會用相關係數來衡量兩個變量之間的相關程度。相關係數在-1到1之間,小於零表示負相關,大於零表示正相關。絕對值 ρX,Y|\rho(X,Y)| 表示相關度的大小。越接近1,相關度越大。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章