數據挖掘day12-CS229-Review of Probability Theory

沒找到中文翻譯,只能自己做翻譯了(未完待填坑)

概率論是對不確定性的研究。通過這個課程,我們將依靠概率論的概念來推導機器學習算法。 本文試圖概括適合於CS 229水平的概率論基礎知識。概率的數學理論非常複雜,其深層次內容爲測量理論的分支。 在這些文檔中,我們提供了概率的基本處理,但沒有解決這些細節問題。

1、概率基本元素

爲了定義集合上的概率,我們需要一些基本元素:
• 樣本空間Ω\Omega:隨機實驗的所有結果的集合。在這裏,每個結果ωΩ\omega \in \Omega可以被認爲是實驗結束時現實世界狀態的完整描述。
•事件集(或事件域)ϝ\digamma:事件域是指一個樣本空間Ω\Omega中某些子集AϝA \in \digamma 組成的集合類(AΩA\subseteq \Omega是實驗可能結果的集合)。
•概率公理化定義:函數 P:ϝRP:\digamma→\mathbb{R} ,並且具有一下屬性:
非負性:所有AϝA \in \digamma都有P(A)0P(A)\ge0
規範性:P(Ω)=0P(\Omega)=0
可列可加性:若A1,A2,A_1,A_2,\cdots是不相交事件(即,AiAj=,ijA_i \cap A_j=\empty,i \ne j),則有:

P(iAi)=iP(Ai)P(\cup_iA_i)=\displaystyle \sum_iP(A_i)
這三個屬性被稱爲概率的公理。
**示例:**例如拋擲6面骰子。樣本空間爲Ω={1,2,3,4,5,6}Ω= \{1,2,3,4,5,6\}。我們可以在此樣本空間上定義不同的事件域。 例如,最簡單的事件域是F={Ω}F = \{∅,Ω\}。 另一個事件空間是Ω的所有子集的集合。 對於第一個事件空間,滿足上述要求的唯一概率測度由P()=0P(Ω)=1P(∅)= 0,P(Ω)= 1給出。對於第二個事件空間,一個有效的概率計算是事件空間中每個集合的概率爲i6\frac{i}{6},其中i是該集合的元素數量; 例如,P({1,2,3,4})=46P(\{1,2,3,4\})= \frac{4}{6},P({1,2,3})=36P(\{1,2,3\})= \frac{3}{6}
屬性:

  • ABP(A)P(B)A ⊆ B ⇒ P(A) ≤ P(B).
  • P(AB)min(P(A),P(B))P(A ∩ B) ≤ min(P(A), P(B)).
  • P(AB)P(A)+P(B)P(A ∪ B) ≤ P(A) + P(B).
  • P( A)=1P(A)P(Ω \ A) = 1 − P(A).
  • A1,A2,,AkA_1,A_2,\cdots,A_k是不相交事件,且i=1kAi=∪_{i=1}^kA_i = Ω,則:
    ikP(Ak)=1\displaystyle \sum_i^kP(A_k) = 1

1.1、條件概率和獨立性

設B是具有非零概率的事件。在給定B條件下,A的條件概率定義爲

P(AB)=P(AB)P(B)P(A|B)= \frac{P(A ∩ B)} {P(B)}

換句話說,PABP(A | B)是觀察事件B發生後事件A的概率。當且僅當P(AB)=P(A)P(B)P(A∩B)= P(A)P(B)時,兩個事件被稱爲獨立事件。(或等效地,P(AB)=P(A)P(A | B)= P(A))。 因此,獨立性相當於說B對A的概率沒有任何影響。

2、隨機變量

考慮一個10次拋硬幣的實驗,我們想知道出現的頭的次數。 這裏,樣本空間Ω的元素是10個長度的頭或花序列。 例如,我們可能有w0=HHTHTHHTTTΩw_0 = \langle H,H,T,H,T,H,H,T,T,T \rangle ∈Ω。 然而,在實踐中,我們通常不關心獲得任何頭或花序列的可能性。相反,我們通常關心結果的數值函數,例如在我們的10次投擲中出現的頭數,或者最長連續花的數量。在某些技術條件下,這些函數稱爲隨機變量。

更正式地,隨機變量X是函數XΩR2X:Ω→\mathbb{R}^2。 通常,我們將使用大寫字母X(ω)X(ω)或更簡單地XX(其中隱含對隨機結果ω的依賴性)來表示隨機變量。 我們將使用小寫字母xx表示隨機變量可能採用的值。

**示例:**在上面的實驗中,假設X(ω)X(ω)是在投擲序列ω中出現的頭數。 假設只拋出10次硬幣,X(ω)X(ω)只能獲取有限數量的值,因此它被稱爲離散隨機變量。 這裏,與隨機變量X相對應的集合在某個特定值k上的概率是:

p(X=k):=P({ω:X(ω)=k})p(X=k):=P(\{ω:X(ω)=k\})

**示例:**假設X(ω)X(ω)是一個隨機變量,表示放射性粒子衰變所需的時間。 在這種情況下,X(ω)X(ω)具有無限數量的可能值,因此稱爲連續隨機變量。 我們用X表示在兩個實常數a和b(其中a<ba <b)之間的概率:

p(aXb):=P({ω:aX(ω)b})p(a≤ X≤ b):=P(\{ω:a≤ X(ω)≤ b\})

2.1、累積分佈函數

爲了指定在處理隨機變量時使用的概率度量,通常很容易指定替代函數(CDF,PDF和PMF),從中可以立即控制實驗的概率測量。 在本節和接下來的兩節中,我們依次描述這些類型的函數。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章