數據挖掘day12-CS229-Review of Probability Theory

原創

2020-02-24 06:47

沒找到中文翻譯，只能自己做翻譯了（未完待填坑）

概率論是對不確定性的研究。通過這個課程，我們將依靠概率論的概念來推導機器學習算法。本文試圖概括適合於CS 229水平的概率論基礎知識。概率的數學理論非常複雜，其深層次內容爲測量理論的分支。在這些文檔中，我們提供了概率的基本處理，但沒有解決這些細節問題。

1、概率基本元素

爲了定義集合上的概率，我們需要一些基本元素：
• 樣本空間 $\Omega$ ：隨機實驗的所有結果的集合。在這裏，每個結果 $\omega \in \Omega$ 可以被認爲是實驗結束時現實世界狀態的完整描述。
•事件集（或事件域） $\digamma$ ：事件域是指一個樣本空間 $\Omega$ 中某些子集 $A \in \digamma$ 組成的集合類（ $A\subseteq \Omega$ 是實驗可能結果的集合）。
•概率公理化定義：函數 $P:\digamma→\mathbb{R}$ ，並且具有一下屬性：
非負性：所有 $A \in \digamma$ 都有 $P(A)\ge0$
規範性： $P(\Omega)=0$
可列可加性：若 $A_1,A_2,\cdots$ 是不相交事件（即， $A_i \cap A_j=\empty,i \ne j$ ),則有：

$P(\cup_iA_i)=\displaystyle \sum_iP(A_i)$
這三個屬性被稱爲概率的公理。
**示例：**例如拋擲6面骰子。樣本空間爲 $Ω= \{1,2,3,4,5,6\}$ 。我們可以在此樣本空間上定義不同的事件域。例如，最簡單的事件域是 $F = \{∅，Ω\}$ 。另一個事件空間是Ω的所有子集的集合。對於第一個事件空間，滿足上述要求的唯一概率測度由 $P(∅)= 0，P(Ω)= 1$ 給出。對於第二個事件空間，一個有效的概率計算是事件空間中每個集合的概率爲 $\frac{i}{6}$ ，其中i是該集合的元素數量; 例如， $P(\{1,2,3,4\})= \frac{4}{6}$ , $P(\{1,2,3\})= \frac{3}{6}$ 。
屬性：

$A ⊆ B ⇒ P(A) ≤ P(B)$ .
$P(A ∩ B) ≤ min(P(A), P(B))$ .
$P(A ∪ B) ≤ P(A) + P(B)$ .
$P(Ω \ A) = 1 − P(A)$ .
若 $A_1,A_2,\cdots,A_k$ 是不相交事件，且 $∪_{i=1}^kA_i = Ω$ ，則：
$\displaystyle \sum_i^kP(A_k) = 1$

1.1、條件概率和獨立性

設B是具有非零概率的事件。在給定B條件下，A的條件概率定義爲

$P(A|B)= \frac{P(A ∩ B)} {P(B)}$

換句話說， $P（A | B）$ 是觀察事件B發生後事件A的概率。當且僅當 $P(A∩B)= P(A)P(B)$ 時，兩個事件被稱爲獨立事件。（或等效地， $P(A | B)= P(A)$ ）。因此，獨立性相當於說B對A的概率沒有任何影響。

2、隨機變量

考慮一個10次拋硬幣的實驗，我們想知道出現的頭的次數。這裏，樣本空間Ω的元素是10個長度的頭或花序列。例如，我們可能有 $w_0 = \langle H，H，T，H，T，H，H，T，T，T \rangle ∈Ω$ 。然而，在實踐中，我們通常不關心獲得任何頭或花序列的可能性。相反，我們通常關心結果的數值函數，例如在我們的10次投擲中出現的頭數，或者最長連續花的數量。在某些技術條件下，這些函數稱爲隨機變量。

更正式地，隨機變量X是函數 $X：Ω→\mathbb{R}^2$ 。通常，我們將使用大寫字母 $X(ω)$ 或更簡單地 $X$ （其中隱含對隨機結果ω的依賴性）來表示隨機變量。我們將使用小寫字母 $x$ 表示隨機變量可能採用的值。

**示例：**在上面的實驗中，假設 $X(ω)$ 是在投擲序列ω中出現的頭數。假設只拋出10次硬幣， $X(ω)$ 只能獲取有限數量的值，因此它被稱爲離散隨機變量。這裏，與隨機變量X相對應的集合在某個特定值k上的概率是：

$p(X=k):=P(\{ω:X(ω)=k\})$

**示例：**假設 $X(ω)$ 是一個隨機變量，表示放射性粒子衰變所需的時間。在這種情況下， $X(ω)$ 具有無限數量的可能值，因此稱爲連續隨機變量。我們用X表示在兩個實常數a和b（其中 $a <b$ ）之間的概率:

$p(a≤ X≤ b):=P(\{ω:a≤ X(ω)≤ b\})$

2.1、累積分佈函數

爲了指定在處理隨機變量時使用的概率度量，通常很容易指定替代函數（CDF，PDF和PMF），從中可以立即控制實驗的概率測量。在本節和接下來的兩節中，我們依次描述這些類型的函數。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

數據挖掘day12-CS229-Review of Probability Theory

1、概率基本元素

1.1、條件概率和獨立性

2、隨機變量

2.1、累積分佈函數

1082. Sales Analysis I 難度：簡單

數據挖掘day22、23-《數據挖掘導論》-第四章，4.1-4.3.7 決策樹

01、（golang）FIFO循環隊列

百家號爬蟲（獲取各領域創作者appid）

數據分析工具彙總

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結