泊松分佈經常出現在IT類技術面試中,雖然工作中我還沒遇到需要用泊松分佈解決的問題,但我想深入理解泊松分佈對於服務器處理訪問請求,以及對各種小概率事件的估計預測都有重要作用,所以花時間整理了下資料,以備忘及分享討論。
泊松分佈
泊松分佈適合於描述單位時間內隨機事件發生的次數的概率分佈。如某一服務設施在一定時間內受到的服務請求的次數,電話交換機接到呼叫的次數、汽車站臺的候客人數、機器出現的故障數、自然災害發生的次數、DNA序列的變異數、放射性原子核的衰變數,宇宙中單位體積內星球的個數 ,耕地上單位面積內雜草的數目等 。
泊松分佈的概率質量函數爲:
泊松分佈的參數λ是單位時間(或單位面積)內隨機事件的平均發生率。
泊松分佈的由來
在二項分佈的伯努利試驗中,如果試驗次數n很大,二項分佈的概率p很小,且乘積λ= n p比較適中,則事件出現的次數的概率可以用泊松分佈來逼近。事實上,二項分佈可以看作泊松分佈在離散時間上的對應物。
證明如下。首先,回顧e的定義:
二項分佈的定義:
如果令, 趨於無窮時的極限:
舉個例子
讓我們先通過一個例子,瞭解什麼是"泊松分佈"。
已知某家小雜貨店,平均每週售出2個水果罐頭。請問該店水果罐頭的最佳庫存量是多少?
假定不存在季節因素,可以近似認爲,這個問題滿足以下三個條件:
(1)顧客購買水果罐頭是小概率事件。
(2)購買水果罐頭的顧客是獨立的,不會互相影響。
(3)顧客購買水果罐頭的概率是穩定的。
在統計學上,只要某類事件滿足上面三個條件,它就服從"泊松分佈"。
泊松分佈的公式如下:
各個參數的含義:
P:每週銷售k個罐頭的概率。
X:水果罐頭的銷售變量。
k:X的取值(0,1,2,3...)。
λ:每週水果罐頭的平均銷售量,是一個常數,本題爲2。
根據公式,計算得到每週銷量的分佈:
從上表可見,如果存貨4個罐頭,95%的概率不會缺貨(平均每19周發生一次);如果存貨5個罐頭,98%的概率不會缺貨(平均59周發生一次)。
再舉個例子
我們可以把一個小時分成很多區間,比如60個區間,那麼每分鐘就是m/60個人,如果m/60大於一個人,那我們可以把區間分得更小,不能讓單位區間人數超過1人,這樣我們就可以把單位區間到達1人認爲成功,否則是失敗,於是用下面的式子來求概率。
P(x=3)=C(60,3)*(m/60)^3*(1-m/60)^(60-3),這個式子C(60,3)是3個人可以是60個區間的任意3個區間,後面分別是3個區間有人的概率和57個區間無人的概率。
更一般來講
P(x=k)=C(n,k)*(λ/n)^k*(1-λ/n)^(n-k)=λ^k/k! *exp(-λ)
最大似然估計
給定n個樣本值ki,希望得到從中推測出總體的泊松分佈參數λ的估計。爲計算最大似然估計值, 列出對數似然函數:
對函數L取相對於λ的導數並令其等於零:
解得λ從而得到一個駐點(stationary point):
檢查函數L的二階導數,發現對所有的λ 與ki大於零的情況二階導數都爲負。因此求得的駐點是對數似然函數L的極大值點:
最大似然估計舉個例子
對某公共汽車站的客流做調查,統計了某天上午10:30到11:47來到候車的乘客情況。假定來到候車的乘客各批(每批可以是1人也可以是多人)是互相獨立發生的。觀察每20秒區間來到候車的乘客批次,共觀察77分鐘*3=231次,共得到230個觀察記錄。其中來到0批、1批、2批、3批、4批及4批以上的觀察記錄分別是100個、81個、34個、9個、6個。使用極大似真估計(MLE),得到的估計爲200/231=0.8658。
泊松分佈的性質
參考:
【1】 http://zh.wikipedia.org/wiki/%E6%B3%8A%E6%9D%BE%E5%88%86%E4%BD%88 泊松分佈 wiki
【2】 http://www.ruanyifeng.com/blog/2013/01/poisson_distribution.html 泊松分佈與美國槍擊案
【3】 http://maider.blog.sohu.com/304621504.html 如何理解泊松分佈和泊松過程