統計學3

正態分佈
這一節我們將講統計學中最重要的概念,甚至是任何科學領域中最重要的概念,因爲它在生活中無處不在,就是正態分佈,或者叫高斯分佈或鐘形曲線

使用Excel可以說明,二項分佈在試驗次數足夠時會很接近正態分佈。從圖中可以看出均值爲100*0.3=30。注意K=60~100概率極低但也不爲0。
這裏寫圖片描述

正態分佈的概率密度函數圖像
這裏寫圖片描述

概率密度函數f(x)=12πσe12(xμσ)2 ,其中xμσ 表示x離均值有多少個標準差那麼遠,這又稱作標準z分數。注意,不只是正態分佈,任何分佈都有z分數,只要知道均值和標準差。

連續隨機變量x在[a,b]上的概率P(X)=baf(x)dx ,且正態分佈在整個實數軸上都有意義,f(x)dx=1

比如拋硬幣的例子(二項分佈)中,均值爲10*0.5,方差爲10*0.5*0.5。P(X=2)=0.04395
這裏寫圖片描述
用正態分佈的概率公式計算P(1.5X2.5)=12π1.58e12(251.58)2×10.0417 (x=2的概率爲高,寬爲1的長方形面積,即積分的的近似),和二項分佈求得的概率幾乎相等,差距是0.00224。
如果試驗次數更多,還會更接近,如下圖試驗15次,差距是0.00045。
這裏寫圖片描述

中心極限定理:拋硬幣的例子中,如果拋的足夠多且每次試驗相互獨立,其如果正面,隨機變量爲1,如果反面爲0。那麼所有隨機變量的和在拋擲次數趨於無窮時,趨於正態分佈。有趣的是每次拋擲試驗並非正態分佈,但結果卻得到正態分佈。

正態分佈的概率密度公式也可以改寫成
f(x)=12πσe12(xμσ)2=12πσ2(e(xμσ)2)12=12πσ2ez2 ,其中xμσ=z

正態分佈的圖像受均值和標準差影響
這裏寫圖片描述


正態分佈的積累分佈函數F(x)=xf(x)dx ,圖像如下圖。
這裏寫圖片描述
F(2)表示小於2的概率是多少。F(1)-F(-1)表示-1到1之間的概率是多少。

哪些是正態分佈?
1、某高中學生的拇指到小指的長度——近似於正態分佈
2、某大型公司所有員工的工資——右偏態分佈,又叫正偏態分佈(尾部右側延伸),也屬於一種雙峯分佈
這裏寫圖片描述
3、收銀抽屜裏100枚硬幣的日期——左偏態分佈,又叫負偏態分佈(尾部左側延伸)
這裏寫圖片描述
右偏態分佈:均值在中位數右邊
左偏態分佈:均值在中位數左邊(均值將曲線下方面積分成相等的兩部分,中位數是從小到大序列中最中間的數,因爲左側無限延伸,所以均值在中位數左邊)
這裏寫圖片描述


下面介紹經驗法則,又稱68-95-99.7法則。在實際應用上,常考慮一組數據具有近似於正態分佈的概率分佈。若其假設正確,則約 68% 數值分佈在距離平均值有 1 個標準差(|z|1 )之內的範圍,約 95% 數值分佈在距離平均值有 2 個標準差(|z|2 )之內的範圍,以及約 99.7% 數值分佈在距離平均值有 3 個標準差(|z|3 )之內的範圍。
這裏寫圖片描述

最後講兩個正態分佈的衡量指標——偏度和峯度。
如果是對稱的正態分佈,則偏度爲0。如果偏度爲正,則說明右側尾部較長,得到正偏態分佈,不是理想的正態分佈。如果偏度爲負,則說明左側尾部較長。
峯度越大,正峯態會比實際正態分佈尖的越厲害,而負峯態中間更平滑。
這裏寫圖片描述

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章