作者：xxw9485
時間：2018/3/20
來源：https://www.jianshu.com/p/8a0479f55b21

統計分佈

本文用Python統計模擬的方法，介紹四種常用的統計分佈，包括離散分佈：二項分佈和泊松分佈，以及連續分佈：指數分佈和正態分佈，最後查看人羣的身高和體重數據所符合的分佈。

隨機數

計算機發明後，便產生了一種全新的解決問題的方式：使用計算機對現實世界進行統計模擬，該方法又稱爲“蒙特卡洛方法（Monte Carlo method）”。使用統計模擬，首先要產生隨機數，在Python中，numpy.random模塊提供了豐富的隨機數生成函數。

# 輸入
# 生成0到1之間的任意隨機數
print(np.random.random(size=5))  # size表示生成隨機數的個數
# 生成一定範圍內的隨機整數
print(np.random.randint(1, 10, size=5))  # 生成5個1到9之間的隨機整數
# 輸出
[0.11356695 0.84883682 0.38954706 0.71768169 0.08362056]
[8 7 7 3 8]

計算機生成的隨機數其實是僞隨機數，是由一定的方法計算出來的，因此我們可以按下面方法指定隨機數生成的種子，這樣的好處是以後重複計算時，能保證得到相同的模擬結果。

np.random.seed(123)

在NumPy中，不僅可以生成上述簡單的隨機數，還可以按照一定的統計分佈生成相應的隨機數。這裏列舉了二項分佈、泊松分佈、指數分佈和正態分佈各自對應的隨機數生成函數，接下來我們分別研究這四種類型的統計分佈。

np.random.binomial()
np.random.poisson()
np.random.exponential()
np.random.normal()

二項分佈

二項分佈是n個獨立的是/非試驗中成功的次數的概率分佈，其中每次試驗的成功概率爲p。這是一個離散分佈，所以使用概率質量函數（PMF）來表示k次成功的概率：

最常見的二項分佈就是投硬幣問題了，投n次硬幣，正面朝上次數就滿足該分佈。下面我們使用計算機模擬的方法，產生10000個符合（n，p）的二項分佈隨機數，相當於進行10000次實驗，每次實驗投擲了n枚硬幣，正面朝上的硬幣數就是所產生的隨機數。同時使用直方圖函數繪製出二項分佈的PMF圖。

def plot_binomial(n,p):
    '''繪製二項分佈的概率質量函數'''
    sample = np.random.binomial(n,p,size=10000)  # 產生10000個符合二項分佈的隨機數
    bins = np.arange(n+2) 
    plt.hist(sample, bins=bins, align='left', density=True, rwidth=0.1)  # 繪製直方圖
    #設置標題和座標
    plt.title('Binomial PMF with n={}, p={}'.format(n,p))  
    plt.xlabel('number of successes')
    plt.ylabel('probability')

plot_binomial(10, 0.5)
plt.show()

投10枚硬幣，如果正面或反面朝上的概率相同，即p=0.5，那麼出現正面次數的分佈符合上圖所示的二項分佈。該分佈左右對稱，最有可能的情況是正面出現5次。
但如果這是一枚作假的硬幣呢？比如正面朝上的概率p=0.2，或者是p=0.8，又會怎樣呢？我們依然可以做出該情況下的PMF圖。

fig = plt.figure(figsize=(12,4.5)) #設置畫布大小
p1 = fig.add_subplot(121)  # 添加第一個子圖
plot_binomial(10, 0.2)
p2 = fig.add_subplot(122)  # 添加第二個子圖
plot_binomial(10, 0.8)
plt.show()

這時的分佈不再對稱了，正如我們所料，當概率p=0.2時，正面最有可能出現2次；而當p=0.8時，正面最有可能出現8次。

泊松分佈

泊松分佈用於描述單位時間內隨機事件發生次數的概率分佈，它也是離散分佈，其概率質量函數爲：

比如你在等公交車，假設這些公交車的到來是獨立且隨機的（當然這不是現實），前後車之間沒有關係，那麼在1小時中到來的公交車數量就符合泊松分佈。同樣使用統計模擬的方法繪製該泊松分佈，這裏假設每小時平均來6輛車（即上述公式中lambda=6）。

lamb = 6
sample = np.random.poisson(lamb, size=10000)  # 生成10000個符合泊松分佈的隨機數
bins = np.arange(20)
plt.hist(sample, bins=bins, align='left', rwidth=0.1, density=True) # 繪製直方圖
# 設置標題和座標軸
plt.title('Poisson PMF (lambda=6)')
plt.xlabel('number of arrivals')
plt.ylabel('probability')
plt.show()

指數分佈

指數分佈用以描述獨立隨機事件發生的時間間隔，這是一個連續分佈，所以用質量密度函數表示：

比如上面等公交車的例子，兩輛車到來的時間間隔，就符合指數分佈。假設平均間隔爲10分鐘（即1/lambda=10)，那麼從上次發車開始，你等車的時間就滿足下圖所示的指數分佈。

tau = 10
sample = np.random.exponential(tau, size=10000)  # 產生10000個滿足指數分佈的隨機數
plt.hist(sample, bins=80, alpha=0.7, density=True) #繪製直方圖
plt.margins(0.02) 

# 根據公式繪製指數分佈的概率密度函數
lam = 1 / tau
x = np.arange(0,80,0.1)
y = lam * np.exp(- lam * x)
plt.plot(x,y,color='orange', lw=3)

#設置標題和座標軸
plt.title('Exponential distribution, 1/lambda=10')
plt.xlabel('time')
plt.ylabel('PDF')
plt.show()

正態分佈

正態分佈是一種很常用的統計分佈，可以描述現實世界的諸多事物，具備非常漂亮的性質，我們在下一講參數估計之中心極限定理時會詳細介紹。其概率密度函數爲：

以下繪製了均值爲0，標準差爲1的正態分佈的概率密度曲線，其形狀好似一口倒扣的鐘，因此也稱鐘形曲線。

def norm_pdf(x,mu,sigma):
    '''正態分佈概率密度函數'''
    pdf = np.exp(-((x - mu)**2) / (2* sigma**2)) / (sigma * np.sqrt(2*np.pi))
    return pdf

mu = 0    # 均值爲0
sigma = 1 # 標準差爲1

# 用統計模擬繪製正態分佈的直方圖
sample = np.random.normal(mu, sigma, size=10000)
plt. hist(sample, bins=100, alpha=0.7, density=True)

# 根據正態分佈的公式繪製PDF曲線
x = np.arange(-5, 5, 0.01)
y = norm_pdf(x, mu, sigma)
plt.plot(x,y, color='orange', lw=3)
plt.show()

身高和體重的分佈

繼續上一講數據探索之描述性統計中使用的BRFSS數據集，我們查看其中的身高和體重數據，看看他們是不是滿足正態分佈。
首先導入數據，並編寫繪製PDF和CDF圖的函數 plot_pdf_cdf()，便於重複使用。

import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from scipy import stats
import brfss
df = brfss.ReadBrfss()
height = df.height.dropna()
weight = df.weight.dropna()

def plot_pdf_cdf(data, xbins, xrange, xlabel):
    '''繪製概率密度函數PDF和累積分佈函數CDF'''

    fig = plt.figure(figsize=(16,5)) # 設置畫布尺寸

    p1 = fig.add_subplot(121)  # 添加第一個子圖
    # 繪製正態分佈PDF曲線
    std = data.std()
    mean = data.mean()
    x = np.arange(xrange[0], xrange[1], (xrange[1]-xrange[0])/100)
    y = stats.norm.pdf(x, mean, std)
    plt.plot(x,y, label='normal distribution')
    # 繪製數據的直方圖
    plt.hist(data, bins=xbins, range=xrange, rwidth=0.9, 
             alpha=0.5, density=True, label='observables')
    # 圖片設置
    plt.legend()
    plt.xlabel(xlabel)
    plt.title(xlabel +' PDF')

    p2 = fig.add_subplot(122)  #添加第二個子圖
    # 繪製正態分佈CDF曲線
    sample = np.random.normal(mean, std, size=10000)
    plt.hist(sample, cumulative=True, bins=1000, range=xrange, 
             density=True, histtype='step', lw=2, label='normal distribution')
    # 繪製數據的CDF曲線
    plt.hist(data, cumulative=True, bins=1000, range=xrange, 
             density=True, histtype='step', lw=2, label='observables')
    #圖片設置
    plt.legend(loc='upper left')
    plt.xlabel(xlabel)
    plt.title( xlabel + ' CDF')
    plt.show()

人羣的身高分佈比較符合正態分佈。

plot_pdf_cdf(data=height, xbins=21, xrange=(1.2, 2.2), xlabel='height')

但是體重分佈明顯右偏，與對稱的正態分佈存在一定的差異。

plot_pdf_cdf(data=weight, xbins=60, xrange=(0,300), xlabel='weight')

將體重數據取對數值後，其分佈就與正態分佈非常吻合。

log_weight = np.log(weight)
plot_pdf_cdf(data=log_weight, xbins=53, xrange=(3,6), xlabel='log weight')

實例講解統計學基礎知識（3）：統計分佈

統計分佈

隨機數

二項分佈

泊松分佈

指數分佈

正態分佈

身高和體重的分佈

實例講解統計學基礎知識（4）：參數估計

實例講解統計學基礎知識（2）：描述性統計分析

SQL學習筆記3：連接、表操作

如何運用Python計算地圖上兩點的實際距離

Python學習準備總攻略：安裝Python3.6、sublime text3等詳細步驟

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結