假設檢驗,就是做了一個假設 H,然後通過實驗得到相關的統計數據判斷 H 是否(大概率)成立,或者有多大把握認爲 H 成立。這個 H 一般是一個與分佈、統計量相關的的命題,如 。
Intuition
直覺上,假定 H 正確,會使某個事件 A 變成小概率事件,即 很小,那麼在 H 的條件下,A 幾乎不可能發生,如 ,。但若果在檢驗實驗中 A 居然發生了,那 H 大概率是錯的,於是拒絕 H。
Example
要檢驗此女士是否真能分辨「茶+奶」和「奶+茶」,可以進行伯努利實驗:n 杯奶茶混合液給她逐杯試,如果她能至少分對 k 次,那就認爲她真的能分辨。
爲此可以作出假設 。將 的對立假設記爲 。
選擇這樣假設是因爲,這等價於對她的判斷的分佈作出假設:如果是瞎猜,那麼她猜「茶+奶」和「奶+茶」的概率都應該是 0.5,對於每一杯她猜對的概率亦是 0.5,於是對於她猜對的總杯數 X,可以寫出分佈 。
可以算出,要猜對多個的概率是很小的。即要觀察的事件是 ,當 k 比較大時, 很小, 幾乎不可能發生。
接下來就是進行實驗,如果 A 發生了,就拒絕 、接受 ,否則相反。
, P-value
這樣檢驗有主觀的成分:k 取多大,才能大概率地相信她是真的能分辨(才能在 A 發生時拒絕 )?這可以換一種說法: 要多小(在 條件下 A 要多難發生),才能在 A 真的發生時有足夠的信心相信 是錯的?
此例中 P-value 就是 (P-value 應該是 A 和比 A 更難發生的事件概率和)。指定 k 的大小,等價於指定一個概率閾值 ,只有當 時,才認爲:,於是在 A 發生時拒絕 。
所有使得拒絕 的 P-value 的集合叫拒絕域,此例中就是 ,即當實驗測得 P-value 落在拒絕域時,就拒絕 。 常取 0.05、0.01 等小值。
Error: Type I, Type II
上帝知道 實際上是真的還是假的,但人不知道,所以依據實驗結果,決定要拒絕或接受 時,此時做出的決策(拒絕/接受)可能是錯的,錯誤分兩類:
- 第 I 類,棄真錯誤,即 其實是真的(上帝視覺),但被拒絕了;
- 第 II 類,取僞錯誤,即 其實是錯的,但被接受了。
犯第 I 類錯誤的概率,就是 A 發生時拒絕 的概率,即 ,又叫顯著性水平, 稱爲置信度。