假設檢驗筆記

原創

2020-06-13 10:58

假設檢驗，就是做了一個假設 H，然後通過實驗得到相關的統計數據判斷 H 是否（大概率）成立，或者有多大把握認爲 H 成立。這個 H 一般是一個與分佈、統計量相關的的命題，如 $H: P\{硬幣朝上\} < 0.2$ 。

Intuition

直覺上，假定 H 正確，會使某個事件 A 變成小概率事件，即 $P(A|H)$ 很小，那麼在 H 的條件下，A 幾乎不可能發生，如 $H: P\{硬幣朝上\} < 0.2$ ， $A:\text{連拋100次，80次朝上}$ 。但若果在檢驗實驗中 A 居然發生了，那 H 大概率是錯的，於是拒絕 H。

Example

要檢驗此女士是否真能分辨「茶+奶」和「奶+茶」，可以進行伯努利實驗：n 杯奶茶混合液給她逐杯試，如果她能至少分對 k 次，那就認爲她真的能分辨。
爲此可以作出假設 $H_0:她其實不能分辨，只是瞎猜$ 。將 $H_0$ 的對立假設記爲 $H_1$ 。
選擇這樣假設是因爲，這等價於對她的判斷的分佈作出假設：如果是瞎猜，那麼她猜「茶+奶」和「奶+茶」的概率都應該是 0.5，對於每一杯她猜對的概率亦是 0.5，於是對於她猜對的總杯數 X，可以寫出分佈 $X\sim B(n,0.5)$ 。
可以算出，要猜對多個的概率是很小的。即要觀察的事件是 $A:分對至少k杯$ ，當 k 比較大時， $P(A|H_0)$ 很小， $A|H_0$ 幾乎不可能發生。
接下來就是進行實驗，如果 A 發生了，就拒絕 $H_0$ 、接受 $H_1$ ，否則相反。

$\alpha$ , P-value

這樣檢驗有主觀的成分：k 取多大，才能大概率地相信她是真的能分辨（才能在 A 發生時拒絕 $H_0$ ）？這可以換一種說法： $P(A|H_0)$ 要多小（在 $H_0$ 條件下 A 要多難發生），才能在 A 真的發生時有足夠的信心相信 $H_0$ 是錯的？
此例中 P-value 就是 $P(A|H_0)$ （P-value 應該是 A 和比 A 更難發生的事件概率和）。指定 k 的大小，等價於指定一個概率閾值 $\alpha$ ，只有當 $\text{P-value}=P(A|H_0)\leq\alpha$ 時，才認爲： $A 發生\Leftrightarrow H_0明顯/大概率是錯的$ ，於是在 A 發生時拒絕 $H_0$ 。
所有使得拒絕 $H_0$ 的 P-value 的集合叫拒絕域，此例中就是 $[0,\alpha]$ ，即當實驗測得 P-value 落在拒絕域時，就拒絕 $H_0$ 。 $\alpha$ 常取 0.05、0.01 等小值。

Error: Type I, Type II

上帝知道 $H_0$ 實際上是真的還是假的，但人不知道，所以依據實驗結果，決定要拒絕或接受 $H_0$ 時，此時做出的決策（拒絕/接受）可能是錯的，錯誤分兩類：

第 I 類，棄真錯誤，即 $H_0$ 其實是真的（上帝視覺），但被拒絕了；
第 II 類，取僞錯誤，即 $H_0$ 其實是錯的，但被接受了。

犯第 I 類錯誤的概率，就是 A 發生時拒絕 $H_0$ 的概率，即 $\alpha$ ，又叫顯著性水平， $1-\alpha$ 稱爲置信度。

References

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

假設檢驗筆記

Intuition

Example

$\alpha$ , P-value

Error: Type I, Type II

References

lasagne embedding layer理解

tensorflow實現triplet loss

NUS-WIDE數據集劃分

pickle讀文件解碼問題

tensorflow用gather/scatter實現advanced indexing

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

假設檢驗筆記

Intuition

Example

α\alphaα, P-value

Error: Type I, Type II

References

$\alpha$ , P-value