統計學的Python實現-020:已知樣本比例的抽樣分佈

作者:長行

時間:2019.03.24

統計學解釋

已知樣本比例的抽樣分佈計算是一種理想的抽樣分佈算法,通常用來學習抽樣理論。其已知的信息爲總體的分佈特徵,並求在抽取一定容量的樣本後,樣本的分佈特徵。

例如:已知1980年美國總統選舉中,有3490萬選民支持民主黨,有4320萬選民支持共和黨。求事先隨機抽取150位選民能夠成功預測共和黨勝出的概率。

這實際上是二項隨機變量的概率計算的一種實際應用。抽取的樣本服從二項分佈,X~b(n,p),其中n爲樣本量,p爲要研究的事件發生的概率。因此可以使用二項分佈的公式,要研究的事件發生的次數爲k的概率:
P{X=k}=Cnkpk(1p)nk,k=0,1,2,...,n P\{X=k\}=C^{k}_{n}p^{k}(1-p)^{n-k},\qquad{k=0,1,2,...,n}

實現代碼

參考二項隨機變量的概率計算的計算方法,我們有如下的函數計算要研究的事件發生的次數大於等於x的概率:

def binomial_distribution_morethan(p, n, x):
    count = 0
    for i in range(x, n, 1):
        c = math.factorial(n) / math.factorial(n - i) / math.factorial(i)
        count += c * (p ** i) * ((1 - p) ** (n - i))
    return count

其中參數p爲要研究的事件發生的概率,n爲抽取的樣本容量,x爲要研究的事件發生的次數。

例如在1980年美國總統選舉的樣例中:p爲抽取的選民支持共和黨的概率,其概率爲4320/(4320+3490)=0.5531;n爲抽取的樣本量150;x爲預測共和黨勝出至少需要樣本中支持共和黨的人數,即76。因此調用函數的方法爲:

binomial_distribution_morethan(0.5531,150,76)

其結果爲:

0.8896861732667398

實際應用

在一些特殊情況下,我們會事先進行抽樣並預測總體分佈情況,而事後我們又可以得到總體的確切的分佈情況,例如選舉。

在這種情況下,我們可以依據事後得到的總體分佈情況,此計算出之前我們抽取的樣本被抽出的概率,並依據實際推斷原理檢驗抽樣方法是否存在漏洞。

例如在1980年美國總統選舉的樣例中,如果我們抽取的樣本顯示民主黨將獲勝,那麼抽出這樣樣本的概率僅有11%,顯然我們就需要分析我們的抽樣方法是否存在問題了。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章