[統計學筆記] （十四）概率與概率分佈

概率與概率分佈

概率是度量偶然事件發生可能性的數值。假如經過多次重複試驗(用X代表)，偶然事件(用A代表)出現了若干次(用Y代表)。以X作分母，Y作分子，形成了數值(用P代表)。在多次試驗中，P相對穩定在某一數值上，P就稱爲A出現的概率。如偶然事件的概率是通過長期觀察或大量重複試驗來確定，則這種概率爲統計概率或經驗概率。

研究支配偶然事件的內在規律的學科叫概率論。屬於數學上的一個分支。概率論揭示了偶然現象所包含的內部規律的表現形式。所以，概率，對人們認識自然現象和社會現象有重要的作用。

概率的古典定義

如果一個試驗滿足兩條：
（1）試驗只有有限個基本結果；
（2）試驗的每個基本結果出現的可能性是一樣的。
這樣的試驗便是古典試驗。
對於古典試驗中的事件A，它的概率定義爲： $\large P(A)= \tfrac{m}{n}$ ，其中n表示該試驗中所有可能出現的基本結果的總數目。m表示事件A包含的試驗基本結果數。這種定義概率的方法稱爲概率的古典定義。

古典概率侷限在隨機試驗只有有限個可能結果的範圍內，這使其應用受到了很大限制。因此，人們又提出了根據某一事件在重複試驗中發生的頻率來確定其概率的方法，即概率的統計定義。

概率的統計定義

在相同的條件下隨機試驗n次，某事件A出現m次（ $\large m\leqslant n$ ），則比值 $\large \frac{m}{n}$ 稱爲事件A發生的頻率。隨着n增大，該頻率圍繞某一常數p上下波動，且波動的幅度逐漸減小，趨於穩定，這個頻率的穩定值即爲該事件的概率，記爲：

$\large P(A)= \tfrac{m}{n}= p$

例子：

隨機事件及其概率

在一定的條件下可能發生也可能不發生的事件，叫做隨機事件。
通常一次實驗中的某一事件由基本事件組成。如果一次實驗中可能出現的結果有n個，即此實驗由n個基本事件組成，而且所有結果出現的可能性都相等，那麼這種事件就叫做等可能事件。
互斥事件：不可能同時發生的兩個事件叫做互斥事件。
對立事件：即必有一個發生的互斥事件叫做對立事件。

在一個特定的隨機試驗中，稱每一可能出現的結果爲一個基本事件，全體基本事件的集合稱爲基本空間。

隨機事件（簡稱事件）是由某些基本事件組成的，例如，在連續擲兩次骰子的隨機試驗中，用Z，Y分別表示第一次和第二次出現的點數，Z和Y可以取值1、2、3、4、5、6，每一點（Z，Y）表示一個基本事件，因而基本空間包含36個元素。“點數之和爲2”是一事件，它是由一個基本事件（1，1）組成，可用集合{（1，1）}表示，“點數之和爲4”也是一事件，它由（1，3），（2，2），（3，1）3個基本事件組成，可用集合{（1，3），(3，1)，（2，2)}表示。

如果把“點數之和爲1”也看成事件，則它是一個不包含任何基本事件的事件，稱爲不可能事件。P(不可能事件)=0。

在試驗中此事件不可能發生。如果把“點數之和小於40”看成一事件，它包含所有基本事件，在試驗中此事件一定發生，稱爲必然事件。P(必然事件)=1。實際生活中需要對各種各樣的事件及其相互關係、基本空間中元素所組成的各種子集及其相互關係等進行研究。

離散型隨機變量及其分佈

隨機變量的定義

隨機變量（random variable）表示隨機試驗各種結果的實值單值函數。隨機事件不論與數量是否直接有關，都可以數量化，即都能用數量化的方式表達。簡單地說，隨機變量是指隨機事件的數量表現。例如擲一顆骰子出現的點數，電話交換臺在一定時間內收到的呼叫次數，隨機抽查的一個人的身高，懸浮在液體中的微粒沿某一方向的位移，等等，都是隨機變量的實例。

在做實驗時，常常是相對於試驗結果本身而言，我們主要還是對結果的某些函數感興趣。例如，在擲骰子時，我們常常關心的是兩顆骰子的點和數，而並不真正關心其實際結果，就是說，我們關心的也許是其點和數爲7，而並不關心其實際結果是否是（1，6）或（2，5）或（3，4）或（4，3）或（5，2）或（6，1）。我們關注的這些量，或者更形式的說，這些定義在樣本空間上的實值函數，稱爲隨機變量。
因爲隨機變量的值是由試驗結果決定的，所以我們可以給隨機變量的可能值指定概率。

隨機變量可以劃分爲離散型隨機變量和連續型隨機變量。

離散型
離散型（discrete）隨機變量即在一定區間內變量取值爲有限個或可數個。

例如某地區某年人口的出生數、死亡數，某藥治療某病病人的有效數、無效數等。

離散型隨機變量通常依據概率質量函數分類，主要分爲：伯努利隨機變量、二項隨機變量、幾何隨機變量和泊松隨機變量。

連續型
連續型（continuous）隨機變量即在一定區間內變量取值有無限個，或數值無法一一列舉出來。

例如某地區男性健康成人的身長值、體重值，一批傳染性肝炎患者的血清轉氨酶測定值等。

有幾個重要的連續隨機變量常常出現在概率論中，如：均勻隨機變量、指數隨機變量、伽馬隨機變量和正態隨機變量。

離散型隨機變量的概率分佈

例子：已知一批產品的廢品率爲，合格率爲。指定廢品用1代表，合格品用0代表，考察任意抽取一件爲廢品或合格品，即1或0這一離散型隨機變量的概率分佈如下表所示：

$X=x_{i}$
$P(X=x_{i}=p_{i})$

根據 $\sum_{i=0}^{1}p_{i}=0.95+0.05=1$

從上表可以看出，它是一個僅在0與1離散點上的分佈，一般稱爲0—1分佈。

設離散型隨機變量X只可能取0和1兩個值，它的概率分佈爲：

$P\left ( X=1 \right )=p$

$P\left ( X=0 \right )=1-p=q$

或 $P\left ( x \right ) =p^{x}q^{1-x}$ ，

式中：爲常量，，則稱服從 0—1分佈。


$P\left ( x \right )$

0—1分佈是一種經常遇到的一種分佈。如：新生兒的性別，產品質量是否合格、某種實驗是否成功、電力消耗是否超過符合等，都可以用0—1分佈的離散型隨機變量來描述。

例子：擲一顆骰子，出現的點數是一個離散型隨機變量，其概率分佈如下表所示：

	1	2	3	4	5	6
$P\left ( x \right )$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$	$\frac{1}{6}$

則： $\sum_{i=1}^{6}p_{i}=\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}+\frac{1}{6}=1$

描述的這種概率分佈叫做離散型隨機變量的均勻分佈（uniform distribution）。

離散型隨機變量的期望和方差

離散型隨機變量常見的分佈

0-1分佈
二項分佈（伯努利分佈）
泊松分佈

0-1分佈

隨機變量只可能取0與1兩個值，它的分佈律是：

或拆開寫爲

分佈律表格是：

$\large X$	$\large 0$	$\large 1$
$\large p_{k}$	$\large 1-p$	$\large p$

二項分佈（伯努利分佈）

伯努利分佈指的是對於隨機變量X有, 參數爲p(0<p<1)，如果它分別以概率p和1-p取1和0爲值。EX= p,DX=p(1-p)。伯努利試驗成功的次數服從伯努利分佈,參數p是試驗成功的概率。伯努利分佈是一個離散型機率分佈，是N=1時二項分佈的特殊情況，爲紀念瑞士科學家詹姆斯·伯努利(Jacob Bernoulli 或James Bernoulli)而命名。

例子：若在一次伯努利實驗中成功（事件A發生）的概率爲p(0<p<1),獨立重複進行n次, 這n次中實驗成功的次數（事件A發生的次數）X的分佈列爲：

稱X所服從的分佈爲二項分佈，記作：X~B(n,p)或X~b(n,p).

二項分佈X的分佈列表（q=1-p)

當時，二項分佈就轉化爲 0—1分佈了。

例1 某射手在相同條件下獨立地進行5次射擊,每次擊中目標的概率是0.6,求擊中目標次數X的概率分佈。

解答： X ~ B（n，p），n=5, p=0.6

$P(X=k)= C_{5}^{k}\times 0.6^{k}\times \left ( 1-0.6 \right )^{5-k}$ ，其中：

P(X=0) =0.01024

P(X=1) =0.0768

P(X=2) =0.2304

P(X=3) =0.3456

P(X=4) =0.2592

P(X=5) =0.07776

例如: 一批產品的合格率爲0.8,有放回地抽取4次, 每次一件, 取得合格品件數X, 以及取得不合格品件數Y均服從分佈爲二項分佈.

“成功”即取得合格品的概率爲p=0.8, X對應的實驗次數爲n=4, 所以, X~B(4,0.8)，類似,Y~B(4,0.2)。

若A和是n重伯努利實驗的兩個對立結果,“成功”可以指二者中任意一個, p 是“成功”的概率.

例子：有一繁忙的汽車站,每天有大量汽車通過,設每輛汽車在一天的某段時間內,出事故的概率爲0.0001,在每天的該段時間內有1000 輛汽車通過, 問出事故的次數不小於2的概率是多少?

解答：設 1000 輛車通過, 出事故的次數爲 X , 則 X~ b（1000,0.0001）

故所求概率爲：

$P\left \{ X\geq 2 \right \} = 1-P\left \{ X=0 \right \} - P\left \{ X=1 \right \}$

$= 1-0.9999^{1000} - C_{1000}^{1} \times 0.0001\times 0.9999^{999}$

當 $np \rightarrow \lambda\left (n \rightarrow +\infty \right )$ 時，二項分佈轉化爲泊松分佈。

伯努利試驗

如果無窮隨機變量序列 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 是獨立同分布(i．i．d．)的，而且每個隨機變量 $\large X_{i}$ 都服從參數爲 $\large p$ 的伯努利分佈，那麼隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 就形成參數爲 $\large p$ 的一系列伯努利試驗。同樣，如果 $\large n$ 個隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 獨立同分布，並且都服從參數爲 $\large p$ 的伯努利分佈，則隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 形成參數爲 $\large p$ 的 $\large n$ 重伯努利試驗。

下面舉幾個例子加以說明，假定重複拋擲一枚均勻硬幣，如果在第 $\large i$ 次拋擲中出現正面，令 $\large X_{i}= 1$ ；如果出現反面，令 $\large X_{i}= 0$ ，那麼，隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 就形成參數爲 $\large p= \frac{1}{2}$ 的一系列伯努利試驗，同樣，假定由一個特定機器生產的零件中10%是有缺陷的，隨機抽取 $\large n$ 個進行觀測，如果第 $\large i$ 個零件有缺陷，令 $\large X_{i}= 1$ ；如果沒有缺陷，令 $\large X_{i}= 0$ ，那麼，隨機變量 $\large X{_{1}},X{_{2}},……$ ……， $\large X_{n}$ 就形成參數爲 $\large p= \frac{1}{10}$ 的 $\large n$ 重伯努利試驗。

泊松分佈

隨機變量 $\large X$ 可能取的值爲0,1,2,⋅⋅⋅，取各個值的概率爲：

其中 $\large \lambda > 0$ 是泊松分佈的數學期望或方差（泊松分佈的數學期望和方差相等，都等於參數 $\large \lambda$ ），則稱 $\large X$ 服從參數爲 $\large \lambda$ 的泊松分佈，記爲： $\large X$ ~ $\large \pi \left ( \lambda \right )$ 。

泊松分佈只有一個參數 $\large \lambda$ 。

例子：設隨機變量 X 服從參數爲λ的泊松分佈，且已知： $P\left \{ X=1 \right \} = P\left \{ X=2 \right \}$ ，試求： $P\left \{ X=4 \right \}$

解：隨機變量 X 的分佈律爲： $P\left \{ X=k \right \} = \frac{\lambda ^{k}}{k!}e^{-\lambda }$ ， $\left ( k=0,1,2,... \right )$

由已知： $P\left \{ X=1 \right \} = P\left \{ X=2 \right \}$ ， $\frac{\lambda ^{1}}{1!}e^{-\lambda } = \frac{\lambda ^{2}}{2!}e^{-\lambda }$

由此得方程， $\lambda ^{2} - 2\lambda = 0$

得解： $\lambda =2$ 。另一個解 $\lambda =0$ 不合題意，捨去。

所以， $P\left \{ X=4 \right \} = \frac{2^{4}}{4!}\times e^{-2}= \frac{2}{3}\times e^{-2} = 0.09022$ 。

解答完畢。

例子：一家商店採用科學管理，由該商店過去的銷售記錄知道，某種商品每月的銷售數可以用參數λ=4的泊松分佈來描述，爲了以95%以上的把握保證不脫銷，問商店在月底至少應進某種商品多少件？

解答：設該商品每月的銷售數爲X, 已知X服從參數λ=4的泊松分佈。設商店在月底應進某種商品m件,

求滿足 $P\left ( X\leq m \right ) > 0.95$ 的最小的m 。X 是銷售數，m是進貨數。

求滿足 $P\left ( X\leq m \right ) > 0.95$ 的最小的m ，也即是 $\sum_{i=0}^{7} \frac{\lambda ^{i}}{i!}e^{-\lambda } > 0.95$

查泊松分佈表得： $\sum_{i=0}^{7} \frac{\lambda ^{i}}{i!}e^{-\lambda } = 0.948847$ , $\sum_{i=0}^{8} \frac{\lambda ^{i}}{i!}e^{-\lambda } = 0.978637$ $\sum_{i=0}^{8} \frac{\lambda ^{i}}{i!}e^{-\lambda } = 0.978637$ $\sum_{i=0}^{8} \frac{\lambda ^{i}}{i!}e^{-\lambda } = 0.978637$ ，

於是得：件。

二項分佈與泊松分佈的關係

歷史上，泊松分佈是作爲二項分佈的近似，於1837年由法國數學家泊松引入的。近數十年來，泊松分佈日益顯示其重要性，成爲概率論中最重要的幾個分佈之一。在實際中，許多隨機現象服從或近似服從泊松分佈。

泊松定理：

在n重伯努利試驗中，事件A在一次試驗中發生的概率爲 $p_{n}$ （與試驗次數n有關）, 則成功次數X服從二項分佈，當

則對於任何非負整數k，有

連續型隨機變量的概率分佈

由於連續型隨機變量可以取某一區間或這個實數軸上的任意一個值，所以我們不能像對離散型隨機變量那樣列出每一個值及其相應的概率，而必須採用其他方法，通常用數學函數和分佈函數的形式來描述。當用函數 $\large f(x)$ 來表示連續型隨機變量時，我們將 $\large f(x)$ 稱爲概率密度函數（Probability Density Function）。

需要指出的是， $\large f(x)$ 並不是一個概率，即 $\large f(x)\neq P(X=x)$ ， $\large f(x)$ 稱爲概率密度函數，而 $\large P(X=x)$ 在連續分佈的條件下爲零。在連續分佈的情況下，以曲線下的面積表示概率，如隨機變量X在a與b之間的概率可以寫爲：