1. 假設檢驗的基本原理
1.1怎樣提出假設
假設檢驗
對總體參數提出假設的基礎上,利用樣本信息來判斷假設是否成立的統計方法。
原假設/零假設
研究者想收集證據予以推翻的假設,用Ho表示。
等號總是放在原假設上。
原假設表達的含義:參數沒有變化、變量之間沒有關係或總體分佈與某一理論分佈無差異。
備擇假設
研究者想收集證據予以支持的假設,用H1表示。
備擇假設表達含義:總體參數發生變化、變量之間有某種關係或總體分佈與某一理論分佈有差異。
雙側檢驗/雙尾檢驗
如果備擇假設沒有特定的方向,並含有符號≠。
單側檢驗/單尾檢驗
如果備擇假設具有特定的方向性,並含有符號“>”或者“<”。
左側檢驗
備擇假設含有符號“<”。
右側檢驗
備擇假設含有符號“>”。
注意
(1)原假設和備擇假設是一個完備事件組,相互對立。在一項假設檢驗中,原假設和備擇假設必定只有一個成立。
(2)同一個問題看,由於研究目的不同,可能提出截然不同的假設。
1.2 怎樣做出決策
1.2.1 兩類錯誤與顯著性水平
第I類錯誤/α錯誤
原假設正確卻拒絕。
第II類錯誤/β錯誤
原假設錯誤卻沒拒絕。
在假設檢驗中,先控制第I類錯誤的發生概率。
顯著性水平
假設檢驗中犯第I類錯誤的概率α。
α是事先指定的犯第I類錯誤概率的最大允許值。
一般要求α≤0.1。常見的:α=0.01,α=0.05,α=0.1。
1.2.2 依據什麼做出決策
(1)標準化檢驗統計量決策:根據樣本觀測結果計算出對原假設做出決策的檢驗統計量。
對於總體均值和總體比例的檢驗,在原假設Ho微針的條件下,根據點估計量的抽樣分佈可以得到標準化檢驗統計量。
決策準則
根據事先給定的顯著性水平α,在統計量的分佈上找到相應的臨界值。
由顯著性水平和臨界值圍城的區域是拒絕域。
雙側檢驗:|統計量|>臨界值,拒絕原假設。
左側檢驗:統計量<-臨界值,拒絕原假設。
右側檢驗:統計量>臨界值,拒絕原假設。
(2)P值 當原假設Ho成立時,檢驗統計量取比觀察到的結果更爲極端的數值的概率。
決策準則
(1)若P≤α,等價於樣本落在拒絕域內,因此,拒 絕原假設,稱檢驗結果在水平α下是統計顯著的
(2)若P>α,等價於樣本不落在拒絕域內,因此,不拒絕(接受)原假設,稱檢驗結果在水平α下是統計不顯著。
關注公衆號DataLion,每天分享數據分析乾貨。