泊松分佈知識總結及例子

原創

2020-06-02 07:02

泊松分佈知識總結及例子

泊松分佈經常出現在IT類技術面試中，雖然工作中我還沒遇到需要用泊松分佈解決的問題，但我想深入理解泊松分佈對於服務器處理訪問請求，以及對各種小概率事件的估計預測都有重要作用，所以花時間整理了下資料，以備忘及分享討論。

泊松分佈

Poisson分佈（法語：loi de Poisson，英語：Poisson distribution），譯名有泊松分佈、普阿鬆分佈、卜瓦松分佈、布瓦松分佈、布阿鬆分佈、波以鬆分佈、卜氏分配等，又稱泊松小數法則（Poisson law of small numbers），是一種統計與概率學裏常見到的離散概率分佈，由法國數學家西莫恩·德尼·泊松（Siméon-Denis Poisson）在1838年時發表。

泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數，電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數，宇宙中單位體積內星球的個數，耕地上單位面積內雜草的數目等。

泊松分佈的概率質量函數爲：

泊松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。

泊松分佈的由來

在二項分佈的伯努利試驗中，如果試驗次數n很大，二項分佈的概率p很小，且乘積λ= n p比較適中，則事件出現的次數的概率可以用泊松分佈來逼近。事實上，二項分佈可以看作泊松分佈在離散時間上的對應物。

證明如下。首先，回顧e的定義：

二項分佈的定義：

如果令, 趨於無窮時的極限:

所以，實驗結果滿足泊松分佈的實驗即爲泊松過程。泊松過程把離散的伯努利過程變得連續化了：原來是拋n次硬幣，現在變成了無窮多次拋硬幣；原來某次拋硬幣得到正面的概率是p，而現在p無限接近於0（p=lambda/n），即：非常難拋出正面朝上的硬幣；但是n次實驗中硬幣朝上的次數的期望不變，即lambda恆定。在泊松過程中，我們把拋出硬幣正面這樣的事件叫做到達（Arrival）。把單位時間內到達的數量，叫做到達率（Arrival Rate）。

故，泊松過程需要滿足以下三個性質：

1. 在任意單位時間長度內，到達率是穩定的。對應於無窮次拋硬幣的例子，我們相當於把一個單位時間分割成了無窮次拋硬幣的實驗，每次實驗產生正面的概率都是一樣的（爲lambda/n），而在這無窮個拋硬幣實驗之後（即一個單位時間之後）我們期望能拋出lambda個正面的硬幣。這個性質類比於在有限次拋硬幣（二次分佈）的例子中保證了每次擲出硬幣爲正面的概率都爲p。

2. 未來的實驗結果與過去的實驗結果無關。對應於無窮次拋硬幣的例子，之前不管拋出了多少個正面和反面的硬幣，都不會影響之後硬幣出現的結果。

3. 在極小的一段時間內，有1次到達的概率非常小，沒有到達的概率非常大。對應於無窮次拋硬幣的例子，我們發現硬幣朝上的概率p=lambda/n趨向於0。

舉個例子

讓我們先通過一個例子，瞭解什麼是"泊松分佈"。

已知某家小雜貨店，平均每週售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少？

假定不存在季節因素，可以近似認爲，這個問題滿足以下三個條件：

（1）顧客購買水果罐頭是小概率事件。

（2）購買水果罐頭的顧客是獨立的，不會互相影響。

（3）顧客購買水果罐頭的概率是穩定的。

在統計學上，只要某類事件滿足上面三個條件，它就服從"泊松分佈"。

泊松分佈的公式如下：

各個參數的含義：

　　P：每週銷售k個罐頭的概率。

　　X：水果罐頭的銷售變量。

　　k：X的取值（0，1，2，3...）。

　　λ：每週水果罐頭的平均銷售量，是一個常數，本題爲2。

根據公式，計算得到每週銷量的分佈：

從上表可見，如果存貨4個罐頭，95%的概率不會缺貨（平均每19周發生一次）；如果存貨5個罐頭，98%的概率不會缺貨（平均59周發生一次）。

再舉個例子

假設到銀行辦業務的人是相互獨立的，每個小時m個人。現在問一小時3個人的概率多大？
我們可以把一個小時分成很多區間，比如60個區間，那麼每分鐘就是m/60個人，如果m/60大於一個人，那我們可以把區間分得更小，不能讓單位區間人數超過1人，這樣我們就可以把單位區間到達1人認爲成功，否則是失敗，於是用下面的式子來求概率。
P(x=3)=C(60,3)*(m/60)^3*(1-m/60)^(60-3)，這個式子C(60,3)是3個人可以是60個區間的任意3個區間，後面分別是3個區間有人的概率和57個區間無人的概率。
更一般來講
P(x=k)=C(n,k)*(λ/n)^k*(1-λ/n)^(n-k)=λ^k/k! *exp(-λ)

最大似然估計

給定n個樣本值k_i，希望得到從中推測出總體的泊松分佈參數λ的估計。爲計算最大似然估計值, 列出對數似然函數：

對函數L取相對於λ的導數並令其等於零:

解得λ從而得到一個駐點（stationary point）:

檢查函數L的二階導數，發現對所有的λ 與k_i大於零的情況二階導數都爲負。因此求得的駐點是對數似然函數L的極大值點:

最大似然估計舉個例子

對某公共汽車站的客流做調查，統計了某天上午10：30到11：47來到候車的乘客情況。假定來到候車的乘客各批（每批可以是1人也可以是多人）是互相獨立發生的。觀察每20秒區間來到候車的乘客批次，共觀察77分鐘*3=231次，共得到230個觀察記錄。其中來到0批、1批、2批、3批、4批及4批以上的觀察記錄分別是100個、81個、34個、9個、6個。使用極大似真估計（MLE），得到的估計爲200/231=0.8658。

泊松分佈的性質

泊松分佈
概率質量函數
累積分佈函數
參數
支撐集
概率質量函數
累積分佈函數
期望值
衆數
方差
偏度
峯度
動差生成函數
特性函數