簡單易懂的人工智能系列：假設檢驗

統計假設檢驗（Hypothesis Test）：事先對總體的參數或者分佈做一個假設，然後基於已有的樣本數據去判斷這個假設是否合理。即樣本和總體假設之間的不同是純屬機會變異（因爲隨機性誤差導致的不同），還是兩者確實不同。常用的假設檢驗的方法有 t-檢驗法，（卡方檢驗），F-檢驗法等

基本思想：

第一步，根據具體的問題，建立假設：

如果原假設被拒絕（在原假設成立的情況下，計算的到的p值—成立的概率，小於了顯著性檢驗水平，也就是原假設不可能發生），說明備擇假設成立，而原假設沒被拒絕（在原假設成立的情況下，計算的到的p值—成立的概率，大於了顯著性檢驗水平，只是說明原假設可能發生），說明需要更多的證據來支持原假設是否成立。

第二步，確定檢驗水準（顯著性水平）：

第三步，構造統計量：

根據資料類型，研究設計方案和統計推斷的目的，選用適當檢驗方法和計算相應的統計量。

常用檢驗方法：

選擇依據：

第四步，計算P值（概率）：

關於p值：

轉存失敗重新上傳取消

對於P值，當P > a 時，只能說明不能拒絕原假設，但是也不能說明原假設是否就成立（需要收集更多的資料證據）

通過p值判斷結論：

我們回顧一下擲硬幣的問題，擲n次都是正面是已經發生的事實，實際上我們是希望硬幣有問題（也就是我們是想拒絕的假設是硬幣沒有問題），而通過計算，統計量爲二項分佈，計算出來的p值當連續5次就已經小於顯著性水平a = 0.05，因此，我們可以在n >= 5 的情況下拒絕原假設。

某工廠的一批產品，某次品率u 未知，按規定如果 u <= 0.01，則該批產品就可以接受。隨機取樣100個，發現有3件次品，該批次產品是否達標？

得到結論：P 值大於顯著性水平 a,不能拒絕原假設。即通過本次採樣得到的樣本數據，並不能證明原假設Ho成立。不能證明原假設成立，也不能證明它不成立。總之目前次品率到底是低於0.01還是如何，在沒有更多證據的情況下，沒有任何結論。

得到結論：p值大於顯著性水平a，不能拒絕原假設（活動無影響），即現有證據無法證明活動是否有影響。

以一元線性迴歸爲例，可以使用假設檢驗作如下比較和推斷：

對於一元迴歸，方程顯著性檢驗和迴歸係數的顯著性檢驗的原假設/備擇假設是一樣的，還有就是，在假設檢驗中，如果不拒絕原假設，即接受原假設而拒絕備擇假設，意味着沒有證據證明原假設是錯誤的，但是並不能肯定原假設一定是正確的。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.