[統計學筆記] 13. 概率與概率分佈

概率與概率分佈

概率是度量偶然事件發生可能性的數值。假如經過多次重複試驗(用X代表)，偶然事件(用A代表)出現了若干次(用Y代表)。以X作分母，Y作分子，形成了數值(用P代表)。在多次試驗中，P相對穩定在某一數值上，P就稱爲A出現的概率。如偶然事件的概率是通過長期觀察或大量重複試驗來確定，則這種概率爲統計概率或經驗概率。

研究支配偶然事件的內在規律的學科叫概率論。屬於數學上的一個分支。概率論揭示了偶然現象所包含的內部規律的表現形式。所以，概率，對人們認識自然現象和社會現象有重要的作用。

概率的古典定義

如果一個試驗滿足兩條：
（1）試驗只有有限個基本結果；
（2）試驗的每個基本結果出現的可能性是一樣的。
這樣的試驗便是古典試驗。
對於古典試驗中的事件A，它的概率定義爲： $\large P(A)= \tfrac{m}{n}$ ，其中n表示該試驗中所有可能出現的基本結果的總數目。m表示事件A包含的試驗基本結果數。這種定義概率的方法稱爲概率的古典定義。

古典概率侷限在隨機試驗只有有限個可能結果的範圍內，這使其應用受到了很大限制。因此，人們又提出了根據某一事件在重複試驗中發生的頻率來確定其概率的方法，即概率的統計定義。

概率的統計定義

在相同的條件下隨機試驗n次，某事件A出現m次（ $\large m\leqslant n$ ），則比值 $\large \frac{m}{n}$ 稱爲事件A發生的頻率。隨着n增大，該頻率圍繞某一常數p上下波動，且波動的幅度逐漸減小，趨於穩定，這個頻率的穩定值即爲該事件的概率，記爲：

$\large P(A)= \tfrac{m}{n}= p$

例子：

隨機事件及其概率

在一定的條件下可能發生也可能不發生的事件，叫做隨機事件。
通常一次實驗中的某一事件由基本事件組成。如果一次實驗中可能出現的結果有n個，即此實驗由n個基本事件組成，而且所有結果出現的可能性都相等，那麼這種事件就叫做等可能事件。
互斥事件：不可能同時發生的兩個事件叫做互斥事件。
對立事件：即必有一個發生的互斥事件叫做對立事件。

在一個特定的隨機試驗中，稱每一可能出現的結果爲一個基本事件，全體基本事件的集合稱爲基本空間。

隨機事件（簡稱事件）是由某些基本事件組成的，例如，在連續擲兩次骰子的隨機試驗中，用Z，Y分別表示第一次和第二次出現的點數，Z和Y可以取值1、2、3、4、5、6，每一點（Z，Y）表示一個基本事件，因而基本空間包含36個元素。“點數之和爲2”是一事件，它是由一個基本事件（1，1）組成，可用集合{（1，1）}表示，“點數之和爲4”也是一事件，它由（1，3），（2，2），（3，1）3個基本事件組成，可用集合{（1，3），(3，1)，（2，2)}表示。

如果把“點數之和爲1”也看成事件，則它是一個不包含任何基本事件的事件，稱爲不可能事件。P(不可能事件)=0。

在試驗中此事件不可能發生。如果把“點數之和小於40”看成一事件，它包含所有基本事件，在試驗中此事件一定發生，稱爲必然事件。P(必然事件)=1。實際生活中需要對各種各樣的事件及其相互關係、基本空間中元素所組成的各種子集及其相互關係等進行研究。

離散型隨機變量及其分佈

隨機變量的定義

隨機變量（random variable）表示隨機試驗各種結果的實值單值函數。隨機事件不論與數量是否直接有關，都可以數量化，即都能用數量化的方式表達。簡單地說，隨機變量是指隨機事件的數量表現。例如擲一顆骰子出現的點數，電話交換臺在一定時間內收到的呼叫次數，隨機抽查的一個人的身高，懸浮在液體中的微粒沿某一方向的位移，等等，都是隨機變量的實例。

在做實驗時，常常是相對於試驗結果本身而言，我們主要還是對結果的某些函數感興趣。例如，在擲骰子時，我們常常關心的是兩顆骰子的點和數，而並不真正關心其實際結果，就是說，我們關心的也許是其點和數爲7，而並不關心其實際結果是否是（1，6）或（2，5）或（3，4）或（4，3）或（5，2）或（6，1）。我們關注的這些量，或者更形式的說，這些定義在樣本空間上的實值函數，稱爲隨機變量。
因爲隨機變量的值是由試驗結果決定的，所以我們可以給隨機變量的可能值指定概率。

隨機變量可以劃分爲離散型隨機變量和連續型隨機變量。

離散型
離散型（discrete）隨機變量即在一定區間內變量取值爲有限個或可數個。

例如某地區某年人口的出生數、死亡數，某藥治療某病病人的有效數、無效數等。

離散型隨機變量通常依據概率質量函數分類，主要分爲：伯努利隨機變量、二項隨機變量、幾何隨機變量和泊松隨機變量。

連續型
連續型（continuous）隨機變量即在一定區間內變量取值有無限個，或數值無法一一列舉出來。

例如某地區男性健康成人的身長值、體重值，一批傳染性肝炎患者的血清轉氨酶測定值等。

有幾個重要的連續隨機變量常常出現在概率論中，如：均勻隨機變量、指數隨機變量、伽馬隨機變量和正態隨機變量。

離散型隨機變量的概率分佈

離散型隨機變量的期望和方差

離散型隨機變量常見的分佈

0-1分佈
二項分佈（伯努利分佈）
泊松分佈

0-1分佈

隨機變量只可能取0與1兩個值，它的分佈律是：

或拆開寫爲

分佈律表格是：

$\large X$	$\large 0$	$\large 1$
$\large p_{k}$	$\large 1-p$	$\large p$

二項分佈（伯努利分佈）

伯努利分佈指的是對於隨機變量X有, 參數爲p(0<p<1)，如果它分別以概率p和1-p取1和0爲值。EX= p,DX=p(1-p)。伯努利試驗成功的次數服從伯努利分佈,參數p是試驗成功的概率。伯努利分佈是一個離散型機率分佈，是N=1時二項分佈的特殊情況，爲紀念瑞士科學家詹姆斯·伯努利(Jacob Bernoulli 或James Bernoulli)而命名。

伯努利試驗

如果無窮隨機變量序列 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 是獨立同分布(i．i．d．)的，而且每個隨機變量 $\large X_{i}$ 都服從參數爲 $\large p$ 的伯努利分佈，那麼隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 就形成參數爲 $\large p$ 的一系列伯努利試驗。同樣，如果 $\large n$ 個隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 獨立同分布，並且都服從參數爲 $\large p$ 的伯努利分佈，則隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 形成參數爲 $\large p$ 的 $\large n$ 重伯努利試驗。

下面舉幾個例子加以說明，假定重複拋擲一枚均勻硬幣，如果在第 $\large i$ 次拋擲中出現正面，令 $\large X_{i}= 1$ ；如果出現反面，令 $\large X_{i}= 0$ ，那麼，隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 就形成參數爲 $\large p= \frac{1}{2}$ 的一系列伯努利試驗，同樣，假定由一個特定機器生產的零件中10%是有缺陷的，隨機抽取 $\large n$ 個進行觀測，如果第 $\large i$ 個零件有缺陷，令 $\large X_{i}= 1$ ；如果沒有缺陷，令 $\large X_{i}= 0$ ，那麼，隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 就形成參數爲 $\large p= \frac{1}{10}$ 的 $\large n$ 重伯努利試驗。

泊松分佈

隨機變量 $\large X$ 可能取的值爲0,1,2,⋅⋅⋅，取各個值的概率爲：

其中 $\large \lambda > 0$ 是泊松分佈的數學期望或方差（泊松分佈的數學期望和方差相等，都等於參數 $\large \lambda$ ），則稱 $\large X$ 服從參數爲 $\large \lambda$ 的泊松分佈，記爲： $\large X$ ~ $\large \pi \left ( \lambda \right )$ 。

泊松分佈只有一個參數 $\large \lambda$ 。

連續型隨機變量的概率分佈

由於連續型隨機變量可以取某一區間或這個實數軸上的任意一個值，所以我們不能像對離散型隨機變量那樣列出每一個值及其相應的概率，而必須採用其他方法，通常用數學函數和分佈函數的形式來描述。當用函數 $\large f(x)$ 來表示連續型隨機變量時，我們將 $\large f(x)$ 稱爲概率密度函數（Probability Density Function）。

需要指出的是， $\large f(x)$ 並不是一個概率，即 $\large f(x)\neq P(X=x)$ ， $\large f(x)$ 稱爲概率密度函數，而 $\large P(X=x)$ 在連續分佈的條件下爲零。在連續分佈的情況下，以曲線下的面積表示概率，如隨機變量X在a與b之間的概率可以寫爲：