假設檢驗入門詳解

假設檢驗入門詳解



參考:https://cosx.org/2010/11/hypotheses-testing/

0. 背景

在實際生產生活中,我們經常需要對一些邏輯推理進行真假判斷,例如

如果你打了某種疫苗P,就不會得某種流行病Q
如果一個疑似病人隔離了14天還沒確診,那他就沒有被感染新冠肺炎

在統計學裏面,不會像上面那樣說,而是會說:

如果你打了某種疫苗 ,就有95%的把握不會得流行病Q
如果一個疑似病人隔離了14天還沒確診,那他就有95%的把握沒有被感染新冠肺炎

其中的把握水平,在統計推斷中用“置信水平”來代替。置信水平是可以人爲選取的。

1. 從一個硬幣的例子來引入假設檢驗

如何從統計推斷的角度來判斷一個邏輯推理是否正確呢?通常,我們會給定一個置信水平,然後判斷該邏輯推理是否在這個置信水平下成立。這裏重新舉一個硬幣的例子,來引入置信水平的概念。
假設有如下命題:

if P then Q
P: 在 100 次投擲中,得到 90 次正面,10 次反面。
Q: 硬幣不是均勻的。

我們想知道,如果P成立,判斷Q成立的把握有多大。很多時候(但不是所有時候),在統計推斷裏面,要證明的結論都是直覺上可能性比較大的,直接證明可能不太方便,可以反其道行之,證明Q的反面是否成立,來推斷出Q是否成立。爲此,列出如下原假設和備擇假設:

H0: 硬幣是均勻的(P)
Ha: 硬幣是不均勻的(not P)

如果原假設爲真,即硬幣是均勻的,就不可能會發生這樣極端的事情比如:在 100 次投擲中,得到 90 次正面,10 次反面。如果真的觀察到了這麼極端的事情,就有把握認爲硬幣不是均勻的,則拒絕原假設,選擇備選假設。如果觀察到的是60次正面,40個反面,則沒有特別大的把握拒絕原假設,這枚硬幣是否有偏,需要更多的證據來證明(這通常意味着做更多的實驗,比如再投1000次)。

即使觀測到100次投擲中90次正面10次反面,也不能說硬幣一定是不均勻的(也即不能百分之百的把握拒絕原假設)。如果原假設爲真,但是拒絕了原假設,這種情況稱爲第一類錯誤。發生第一類錯誤的概率,稱爲顯著性水平,用α\alpha表示。1α1-\alpha稱爲置信度或者置信水平,它表示我們根據抽樣樣本對總體參數的估計的可靠性。α\alpha一般是人爲定的,如0.05,0.01.給定置信水平後,就可以去利用一些統計學的知識去檢驗原假設是否需要拒絕。
如果原假設是錯誤的,但是沒有拒絕原假設,則稱爲第二類錯誤。如果要求犯第一類錯誤的概率儘可能小,就會導致第二類錯誤的概率增大;反之,如果要求第二類錯誤的Giallo極可能小,就會導致第一類錯誤的概率增大。在實際中需要權衡。權衡的方式就是調節α\alpha。在實際中,我們通常認爲犯第一類錯誤的後果比犯第二類錯誤的後果更爲嚴重。例如,關於打疫苗會後會不會得病的命題,我們通常會將原假設寫成:會得病,然後去搜集數據試圖拒絕原假設。此時犯第一類錯誤的後果是比較嚴重的(實際會得病卻認爲不會得病,會放鬆警惕造成大流行),而犯第二類錯誤的後果不是很嚴重(實際不糊得病,卻沒有拒絕原假設,只是會將打疫苗的部分人隔離起來造成一定的不便)

再強調一下,一般都是先提出需要建議的假設,再蒐集數據,這是統計推斷的原則之一。因爲如果現有了數據再提出假設,容易有主觀干擾。
到這裏,我們還是沒有解答如何去檢驗原假設是否需要被拒絕。別急,接着往下看。

2. P值

如何去定義一個事件是否“極端”呢?首先我們引入“更極端”的概念。更極端,意味着概率更小。例如,91次正面9次反面,比90次正面10次反面,更爲極端。因此,很自然地,我們只需要描述出原假設爲真,第一類錯誤恰好爲α\alpha時的事件,然後判斷出當前樣本集合裏面的事件是否比它更極端,就能判斷是否要在當前顯著性水平下拒絕原假設了。當然,直接這樣比較麻煩,可以轉換一下思路:計算出發生比當前事件(90次正面,10次反面)更極端的事件的概率P,判斷P與α\alpha的大小,如果P<αP<\alpha,則說明如果原假設爲真時,發生當前事件的概率很極端(比我們給定的顯著性水平α\alpha還低),因此說明原假設不合理,於是可以拒絕原假設了。此時發生第一類錯誤的概率小於α\alpha。這裏的概率P,稱爲P值
在硬幣投擲實驗中,正面出現的次數服XX服從一個二項分佈:XB(n,p)X\sim B(n,p),其中n=100,p0.5n=100,p-0.5。根據中心極限定理,二項分佈的極限分佈是正態分佈,因此可以由均值爲np=50np=50,方差爲np(1p)=25np(1-p)=25的正態分佈來近似。我們用這個近似的正態分佈的兩端去考察所謂“更極端”的事件。取α=0.05\alpha=0.05,由正態分佈的性質不難得到,PP值等於X<10X<10X>90X>90的概率值,等於2×P(X<10)=1.2442e152\times P(X<10)=1.2442e-15。這個小於我們給定的α\alpha,因此該事件很極端,原假設不合理,拒絕原假設。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章