正態分佈
這一節我們將講統計學中最重要的概念,甚至是任何科學領域中最重要的概念,因爲它在生活中無處不在,就是正態分佈,或者叫高斯分佈或鐘形曲線。
使用Excel可以說明,二項分佈在試驗次數足夠時會很接近正態分佈。從圖中可以看出均值爲100*0.3=30。注意K=60~100概率極低但也不爲0。
正態分佈的概率密度函數圖像
概率密度函數
連續隨機變量x在[a,b]上的概率
比如拋硬幣的例子(二項分佈)中,均值爲10*0.5,方差爲10*0.5*0.5。
用正態分佈的概率公式計算
如果試驗次數更多,還會更接近,如下圖試驗15次,差距是0.00045。
中心極限定理:拋硬幣的例子中,如果拋的足夠多且每次試驗相互獨立,其如果正面,隨機變量爲1,如果反面爲0。那麼所有隨機變量的和在拋擲次數趨於無窮時,趨於正態分佈。有趣的是每次拋擲試驗並非正態分佈,但結果卻得到正態分佈。
正態分佈的概率密度公式也可以改寫成
正態分佈的圖像受均值和標準差影響
正態分佈的積累分佈函數
F(2)表示小於2的概率是多少。F(1)-F(-1)表示-1到1之間的概率是多少。
哪些是正態分佈?
1、某高中學生的拇指到小指的長度——近似於正態分佈
2、某大型公司所有員工的工資——右偏態分佈,又叫正偏態分佈(尾部右側延伸),也屬於一種雙峯分佈
3、收銀抽屜裏100枚硬幣的日期——左偏態分佈,又叫負偏態分佈(尾部左側延伸)
右偏態分佈:均值在中位數右邊
左偏態分佈:均值在中位數左邊(均值將曲線下方面積分成相等的兩部分,中位數是從小到大序列中最中間的數,因爲左側無限延伸,所以均值在中位數左邊)
下面介紹經驗法則,又稱68-95-99.7法則。在實際應用上,常考慮一組數據具有近似於正態分佈的概率分佈。若其假設正確,則約 68% 數值分佈在距離平均值有 1 個標準差(
最後講兩個正態分佈的衡量指標——偏度和峯度。
如果是對稱的正態分佈,則偏度爲0。如果偏度爲正,則說明右側尾部較長,得到正偏態分佈,不是理想的正態分佈。如果偏度爲負,則說明左側尾部較長。
峯度越大,正峯態會比實際正態分佈尖的越厲害,而負峯態中間更平滑。