沒找到中文翻譯,只能自己做翻譯了(未完待填坑)
概率論是對不確定性的研究。通過這個課程,我們將依靠概率論的概念來推導機器學習算法。 本文試圖概括適合於CS 229水平的概率論基礎知識。概率的數學理論非常複雜,其深層次內容爲測量理論的分支。 在這些文檔中,我們提供了概率的基本處理,但沒有解決這些細節問題。
1、概率基本元素
爲了定義集合上的概率,我們需要一些基本元素:
• 樣本空間Ω:隨機實驗的所有結果的集合。在這裏,每個結果ω∈Ω可以被認爲是實驗結束時現實世界狀態的完整描述。
•事件集(或事件域)ϝ:事件域是指一個樣本空間Ω中某些子集A∈ϝ 組成的集合類(A⊆Ω是實驗可能結果的集合)。
•概率公理化定義:函數 P:ϝ→R ,並且具有一下屬性:
非負性:所有A∈ϝ都有P(A)≥0
規範性:P(Ω)=0
可列可加性:若A1,A2,⋯是不相交事件(即,Ai∩Aj=∅,i=j),則有:
P(∪iAi)=i∑P(Ai)
這三個屬性被稱爲概率的公理。
**示例:**例如拋擲6面骰子。樣本空間爲Ω={1,2,3,4,5,6}。我們可以在此樣本空間上定義不同的事件域。 例如,最簡單的事件域是F={∅,Ω}。 另一個事件空間是Ω的所有子集的集合。 對於第一個事件空間,滿足上述要求的唯一概率測度由P(∅)=0,P(Ω)=1給出。對於第二個事件空間,一個有效的概率計算是事件空間中每個集合的概率爲6i,其中i是該集合的元素數量; 例如,P({1,2,3,4})=64,P({1,2,3})=63。
屬性:
- A⊆B⇒P(A)≤P(B).
- P(A∩B)≤min(P(A),P(B)).
- P(A∪B)≤P(A)+P(B).
- P(Ω A)=1−P(A).
- 若A1,A2,⋯,Ak是不相交事件,且∪i=1kAi=Ω,則:
i∑kP(Ak)=1
1.1、條件概率和獨立性
設B是具有非零概率的事件。在給定B條件下,A的條件概率定義爲
P(A∣B)=P(B)P(A∩B)
換句話說,P(A∣B)是觀察事件B發生後事件A的概率。當且僅當P(A∩B)=P(A)P(B)時,兩個事件被稱爲獨立事件。(或等效地,P(A∣B)=P(A))。 因此,獨立性相當於說B對A的概率沒有任何影響。
2、隨機變量
考慮一個10次拋硬幣的實驗,我們想知道出現的頭的次數。 這裏,樣本空間Ω的元素是10個長度的頭或花序列。 例如,我們可能有w0=⟨H,H,T,H,T,H,H,T,T,T⟩∈Ω。 然而,在實踐中,我們通常不關心獲得任何頭或花序列的可能性。相反,我們通常關心結果的數值函數,例如在我們的10次投擲中出現的頭數,或者最長連續花的數量。在某些技術條件下,這些函數稱爲隨機變量。
更正式地,隨機變量X是函數X:Ω→R2。 通常,我們將使用大寫字母X(ω)或更簡單地X(其中隱含對隨機結果ω的依賴性)來表示隨機變量。 我們將使用小寫字母x表示隨機變量可能採用的值。
**示例:**在上面的實驗中,假設X(ω)是在投擲序列ω中出現的頭數。 假設只拋出10次硬幣,X(ω)只能獲取有限數量的值,因此它被稱爲離散隨機變量。 這裏,與隨機變量X相對應的集合在某個特定值k上的概率是:
p(X=k):=P({ω:X(ω)=k})
**示例:**假設X(ω)是一個隨機變量,表示放射性粒子衰變所需的時間。 在這種情況下,X(ω)具有無限數量的可能值,因此稱爲連續隨機變量。 我們用X表示在兩個實常數a和b(其中a<b)之間的概率:
p(a≤X≤b):=P({ω:a≤X(ω)≤b})
2.1、累積分佈函數
爲了指定在處理隨機變量時使用的概率度量,通常很容易指定替代函數(CDF,PDF和PMF),從中可以立即控制實驗的概率測量。 在本節和接下來的兩節中,我們依次描述這些類型的函數。