假設檢驗入門詳解
參考:https://cosx.org/2010/11/hypotheses-testing/
0. 背景
在實際生產生活中,我們經常需要對一些邏輯推理進行真假判斷,例如
如果你打了某種疫苗P,就不會得某種流行病Q
如果一個疑似病人隔離了14天還沒確診,那他就沒有被感染新冠肺炎
在統計學裏面,不會像上面那樣說,而是會說:
如果你打了某種疫苗 ,就有95%的把握不會得流行病Q
如果一個疑似病人隔離了14天還沒確診,那他就有95%的把握沒有被感染新冠肺炎
其中的把握水平,在統計推斷中用“置信水平”來代替。置信水平是可以人爲選取的。
1. 從一個硬幣的例子來引入假設檢驗
如何從統計推斷的角度來判斷一個邏輯推理是否正確呢?通常,我們會給定一個置信水平,然後判斷該邏輯推理是否在這個置信水平下成立。這裏重新舉一個硬幣的例子,來引入置信水平的概念。
假設有如下命題:
if P then Q
P: 在 100 次投擲中,得到 90 次正面,10 次反面。
Q: 硬幣不是均勻的。
我們想知道,如果P成立,判斷Q成立的把握有多大。很多時候(但不是所有時候),在統計推斷裏面,要證明的結論都是直覺上可能性比較大的,直接證明可能不太方便,可以反其道行之,證明Q的反面是否成立,來推斷出Q是否成立。爲此,列出如下原假設和備擇假設:
H0: 硬幣是均勻的(P)
Ha: 硬幣是不均勻的(not P)
如果原假設爲真,即硬幣是均勻的,就不可能會發生這樣極端的事情比如:在 100 次投擲中,得到 90 次正面,10 次反面。如果真的觀察到了這麼極端的事情,就有把握認爲硬幣不是均勻的,則拒絕原假設,選擇備選假設。如果觀察到的是60次正面,40個反面,則沒有特別大的把握拒絕原假設,這枚硬幣是否有偏,需要更多的證據來證明(這通常意味着做更多的實驗,比如再投1000次)。
即使觀測到100次投擲中90次正面10次反面,也不能說硬幣一定是不均勻的(也即不能百分之百的把握拒絕原假設)。如果原假設爲真,但是拒絕了原假設,這種情況稱爲第一類錯誤。發生第一類錯誤的概率,稱爲顯著性水平,用表示。稱爲置信度或者置信水平,它表示我們根據抽樣樣本對總體參數的估計的可靠性。一般是人爲定的,如0.05,0.01.給定置信水平後,就可以去利用一些統計學的知識去檢驗原假設是否需要拒絕。
如果原假設是錯誤的,但是沒有拒絕原假設,則稱爲第二類錯誤。如果要求犯第一類錯誤的概率儘可能小,就會導致第二類錯誤的概率增大;反之,如果要求第二類錯誤的Giallo極可能小,就會導致第一類錯誤的概率增大。在實際中需要權衡。權衡的方式就是調節。在實際中,我們通常認爲犯第一類錯誤的後果比犯第二類錯誤的後果更爲嚴重。例如,關於打疫苗會後會不會得病的命題,我們通常會將原假設寫成:會得病,然後去搜集數據試圖拒絕原假設。此時犯第一類錯誤的後果是比較嚴重的(實際會得病卻認爲不會得病,會放鬆警惕造成大流行),而犯第二類錯誤的後果不是很嚴重(實際不糊得病,卻沒有拒絕原假設,只是會將打疫苗的部分人隔離起來造成一定的不便)
再強調一下,一般都是先提出需要建議的假設,再蒐集數據,這是統計推斷的原則之一。因爲如果現有了數據再提出假設,容易有主觀干擾。
到這裏,我們還是沒有解答如何去檢驗原假設是否需要被拒絕。別急,接着往下看。
2. P值
如何去定義一個事件是否“極端”呢?首先我們引入“更極端”的概念。更極端,意味着概率更小。例如,91次正面9次反面,比90次正面10次反面,更爲極端。因此,很自然地,我們只需要描述出原假設爲真,第一類錯誤恰好爲時的事件,然後判斷出當前樣本集合裏面的事件是否比它更極端,就能判斷是否要在當前顯著性水平下拒絕原假設了。當然,直接這樣比較麻煩,可以轉換一下思路:計算出發生比當前事件(90次正面,10次反面)更極端的事件的概率P,判斷P與的大小,如果,則說明如果原假設爲真時,發生當前事件的概率很極端(比我們給定的顯著性水平還低),因此說明原假設不合理,於是可以拒絕原假設了。此時發生第一類錯誤的概率小於。這裏的概率P,稱爲P值。
在硬幣投擲實驗中,正面出現的次數服服從一個二項分佈:,其中。根據中心極限定理,二項分佈的極限分佈是正態分佈,因此可以由均值爲,方差爲的正態分佈來近似。我們用這個近似的正態分佈的兩端去考察所謂“更極端”的事件。取,由正態分佈的性質不難得到,值等於或的概率值,等於。這個小於我們給定的,因此該事件很極端,原假設不合理,拒絕原假設。