第一章 隨機事件及其概率
概率的公理化定義:
1)非負性公理
2)正則性公理
3)可加性公理
重複組合:從n個不同的元素中每次取出一個,放回後再取出下一個,如此連續取r次所得的組合稱爲重複組合,總數爲C_{n+r-1}^{r}
可結合插板法考慮
概率的加法公式
多個事件的獨立性不只是兩兩獨立,eg:三個事件相互獨立需要滿足4個等式。
條件概率同樣滿足概率的公理化中的三個條件。
乘法公式
全概率公式(經由另一對全空間的分割,通過乘法公式/條件概率推算得出)
由全概率公式可知,抽籤不分先後,機會是均等的。
敏感性問題的調查,可以設置兩個問題,其中A爲感興趣的B爲不感興趣的。被調查者從一個罐子中隨機抽取一隻球,抽到白球則回答A,抽到紅球則回答B。通過相關概率公式可以計算感興趣的問題的概率性質。
貝葉斯公式,可由條件概率公式、乘法公式及全概率公式得出。
第二章 隨機變量及其概率分佈
分佈函數F(x)=P(X<=x)的性質:
1)0<=F(x)<=1
2)在x趨於負無窮時爲0
3)在x趨於正無窮時爲1
4)F(x)是非降函數
5)右連續函數
泊松分佈
是常用對的離散分佈之一,eg: 在一定時間內, 電話總站接錯電話的次數。其中使用的 不同。泊松分佈與計數過程相關聯,在一定時間或一定區域或一特定單位內的前提下進行。
(泊松定理)
n大p小,且\lambda=np大小合適,二項分佈中的概率有一個很好的近似公式,可用泊松分佈中相應次數的概率近似二項分佈中的概率。(就求極限即可)
人們把一次試驗中出現概率很小(如小於0.05)成爲稀有事件,此時可使用二項分佈的泊松近似。
超幾何分佈
指數分佈
隨機變量函數的分佈。
則
其中 爲 的反函數.
期望存在的條件是期望對應的積分絕對可積。
期望不一定存在如柯西分佈 的期望不存在。
正態分佈
,其中 決定位置, 決定散佈大小。
(從正態分佈可以導出一些有用的分佈,如統計中常用的三大分佈 , , )
0.95 (-1.96, 1.96)
0.99 (-2.58, 2.58)
0.99 (-3.29, 3.29)
伽馬分佈
其中 稱爲形狀參數, 稱爲尺度參數。
時密度函數各不相同, 時密度函數具有單峯,另外 與 時又有不同。
用於描述產品壽命
注:
1)因此, 的伽馬分佈 是指數分佈。可用來描述第一次衝擊到來的時間,電話的通話是時間等。具有無記憶性。
2) , 的伽馬分佈 稱爲自由度爲 的 分佈
貝塔分佈
,其中 均爲形狀參數
即爲
期望與方差
是分佈位置的特徵數。
偏差
表徵隨機變量取值的波動大小
可利用求導、二項式公式、泰勒展開、分部積分
二項分佈
期望 , 方差
泊松分佈
期望 , 方差
幾何分佈
期望p^{-1}
均與分佈
期望 , 方差
指數分佈
期望 , 方差
正態分佈
,其中 決定位置, 決定散佈大小。
(從正態分佈可以導出一些有用的分佈,如統計中常用的三大分佈 , , )
期望
方差
伽馬分佈
期望 , 方差
分佈
期望 , 方差
貝塔分佈
期望
切比雪夫不等式
矩
變導係數
分位數 , 稱爲 分佈的 分位數,或 下側分位數。
衆數 , 達到最大的
第三章 多維隨機變量
二維正態分佈
的邊緣分佈是一維正態分佈 ,
由此也可以看出二維聯合分佈可以唯一決定其每個分量的的邊緣分佈,但是反過來不成立。
泊松分佈,二項分佈、正態分佈、伽馬分佈可加性:(獨立)
, 與 獨立,則
, 與 獨立,則
, 與 獨立,則
, 與 獨立,則
與 獨立,則
與 獨立,則
協方差
與 獨立,則 .
(線性)相關係數
獨立則相關係數爲0,反之不然。在二維正態分佈場合例外。
條件期望
中心極限定理(n個相互獨立、同分布的隨機變量之和的分佈近似於正態分佈)
是獨立同分布的隨機變量序列,其中 , 假如方差有限且不爲零0,則前 個隨機變量之和的標準化變量 的分佈函數收斂於 , 即
因此 時可用正態分佈近似二項分佈。使用正態近似應修正區間爲往左右放大
獨立不同分佈的隨機變量之和也有類似的中心極限定理。
統計量及其分佈
從這裏開始,我們通過對隨機現象的觀測或試驗來獲取數據,通過對數據的分析與推斷去尋求隱藏在數據中的統計規律性。
eg:通過樣本去推斷總體。由於在實際中常常只能得到有限的甚至少量的數據,這部分數據必然帶有隨機性,我們需要從中儘可能地排出隨機性的干擾以做出合理的推斷。
常用的抽取樣本的方法是“簡單隨機抽樣”,樣本具有代表性(同分布),獨立性。
經驗分佈函數,n增大經驗分佈函數也將在概率移一下越來越靠近總體分佈函數。
是取自某總體的一個容量爲 的樣本, 如果
不含任何未知參數,則稱 爲統計量。統計量的分佈稱爲抽樣分佈。
樣本均值
樣本方差
不大時,常用
計算偏差平方和 的常用公式:
是來自總體 的一個樣本,則
且與 獨立
偏度反映了總體分佈密度曲線的對稱信息。是統計數據分佈偏斜方向和程度的度量,是統計數據分佈非對稱程度的數字特徵。偏度(Skewness)亦稱偏態、偏態係數。 右偏,正偏,右長尾,也就是說均值右邊的數據較多。
峯度(Kurtosis)與偏度類似,反映了總體分佈密度曲線的在其峯值附近的陡峭程度的信息。是描述總體中所有取值分佈形態陡緩程度的統計量。這個統計量需要與正態分佈相比較,峯度爲0表示該總體數據分佈與正態分佈的陡緩程度相同;峯度大於0表示該總體數據分佈與正態分佈相比較爲陡峭,爲尖頂峯;峯度小於0表示該總體數據分佈與正態分佈相比較爲平坦,爲平頂峯。峯度的絕對值數值越大表示其分佈形態的陡緩程度與正態分佈的差異程度越大。
總體偏度 即爲標準化變量的三階矩。
總體峯度
其中 皆爲中心距。
次序統計量的抽樣分佈
第 個次序統計量 的概率密度函數是:
樣本極差表示樣本取值範圍的大小也反映了總體取值的分散和集中程度。
參數估計
形式有兩種: 點估計和區間估計
點估計值能給人們一個明確的數量,未知參數是多少,但是卻不能給出精度。
點估計的常用方法有矩法估計和極大似然估計。
矩法估計 用樣本矩去估計總體矩
評價估計的好壞,無偏性(漸進五篇)、有效性(無偏時,方差最小)、均方誤差準則(有偏時,均方誤差最小)、相和性(p收斂,n越大 應該越來越接近 )
辛欽大數定律獨立同分布的隨機變量,具有有限數學希望,則樣本均值是數學期望的相和估計。
極大似然估計(MLE,總體分佈類型已知時
)
在 的一切取值之中選出一個使樣本觀測值出現的概率爲最大的 值(記爲)作 爲 的估計,並稱 爲 的極大似然估計.
,
則
可通過求導獲得極大似然估計的情況,直接求導(爲求導方便,常對似然函數取對數)。不可時,通過定義出發直接求 的極大值點。
極大似然估計的不變原則, 爲 的極大似然估計, 是 的連續函數, 則
爲 的極大似然估計.
極大似然估計具有漸進正態性。
區間估計給出一個區間以及相應的精度。
, 則稱隨機區間 是 的置信水平爲 的置信區間
常用方法樞軸量法(點估計 通過點估計去尋找)
從 的一個點估計 出發,構造 與 的一個函數 ,是的 的分佈已知且與 無關
eg:
正態分佈
1)正態均值
方差 已知,樣本數 已知, 將 作爲樞軸量給出均值 得到置信區間
2)正態均值
方差 未知,樣本數 已知,
將 ( \mu$得到置信區間。
分佈 , , 且 與 獨立,則 的分佈稱爲自由度爲 的 分佈
3)正態方差
均值 未知,樣本數 已知,
將 ( )作爲軸量給出方差 得到置信區間。
4)兩正態均值差
同正態均值的思路
5)兩正態方差比
分佈
, ,且 與 獨立,則 的分佈稱爲自由度是 與 的 分佈
假設檢驗
步驟
1)建立假設,原假設與備擇假設
常把沒有把握不能輕易肯定的命題作爲備擇假設,把沒有充分理由不能輕易否定的命題作爲原假設,只有理由充足時纔會拒絕它,否則保留。
2)尋找檢驗統計量(由於要確認原假設是否爲真,那麼我們先假定原假設成立,然後用樣本去判斷真僞,而樣本信息較爲分散,所以要構造一個統計量幫助判斷)
3)顯著水平與臨界值
顯著水平即爲原假設爲真但被拒絕的概率
兩類錯誤:
第一類錯誤,原假設爲真而被拒絕,拒真概率記爲
第二類錯誤,原假設爲假但保留,取僞概率記爲
單雙邊看備擇假設
樣本容量固定時,兩者一般一個大一個小,不能同時減小,所以抽取樣本時,儘量使樣本容量大一點,可減小兩類錯誤。
4)作判斷,拒絕或保留原假設
關於均值的檢驗
1)方差已知
作爲檢驗統計量
2)方差未知
作爲檢驗統計量
關於方差的檢驗
作爲檢驗統計量
兩正態總體方差
作爲檢驗統計量
兩正態總體均值差
同正態均值的思路
p值
前面所討論的檢驗問題是在分佈形式已知的前提下對分佈的參數進行的,他們都屬於參數假設檢驗問題,當我們對總體分佈知之甚少時,就要採用非參數檢驗。
擬合優度檢驗
用來檢驗一批分類數據所來自的總體的分佈是否與某種理論分佈相一致。
1)總體可分爲有限類,但總體分佈不含未知參數。(此時 已知)
總體 可分爲 類,記爲 。
充分大且 爲真時, 近似服從自由度爲 的 分佈
2)總體可分爲有限類,但總體分佈含 個未知參數。(此時 未知,可用極大似然估計去代替,相應的自由度減 )
3)總體爲連續分佈的情況
服從分佈
把檢驗問題轉化爲分類數據的檢驗問題
列聯表的獨立性檢驗
使用極大似然估計去替換
即採用檢驗統計量
自由度爲
方差分析
單因子方差分析
因子–變量,水平–變量的不同過取值
設因子 有 個水平 ,每一水平下都可以看成一個總體,現有 個水平,故有 個總體,假定
1)每一總體服從正態分佈
2)每一總體方差相同
3)從每一總體中抽出的樣本獨立
比較哥哥總體的均值是否一致
爲真時,稱該因子的各水平間無顯著差異,簡稱該因子不顯著。
方差分析檢驗具有相同方差的正態總體均值是否相等
稱爲因子 的第 水平的主效應,原假設可改寫爲
總偏差平方和
由於假設原假設爲真,所以除去一個常數項(方差)後服從自由度爲 的 分佈
組內偏差平方和(誤差偏差平方和)
除去一個常數項(方差)後服從自由度爲 的 分佈
因子 的偏差平方和
由於假設原假設爲真,所以 除去一個常數項(方差)後服從自由度爲 的 分佈
採用檢驗統計量
多重比較
當因子顯著時,如何進一步去確認哪些水平減的確有差異,哪些水平間無顯著差異。同時比較任意兩個水平間有無顯著差異的問題叫做多重比較。
一元線性迴歸
迴歸分析是研究變量間相關關係的一種統計方法
其中 相互獨立且服從均值爲零的正態分佈
迴歸係數如何估計?
一個直觀的想法是觀測值與估計值的偏差越小越好,轉化爲求偏差平方和達到最小,即最小二成估計
迴歸方程是否有意義?
F檢驗,類似於方差分析,從偏差平方和分解入手。
t檢驗( 服從正態分佈)
相關係數檢驗
可化爲一元線性迴歸的曲線迴歸
相關指數(類似於一元線性迴歸方程中的相關係數)
越大越好。
剩餘標準差
越小越好