應用統計學與R語言實現筆記(番外篇二)——假設檢驗更正

今天的文章想從統計學的角度——假設檢驗,來回顧最近的疫情。同時也是剛好有之前應用統計學與R語言實現筆記假設檢驗一章中的的錯誤更正。關於假設檢驗的內容,詳情見下面的博客。

應用統計學與R語言實現學習筆記(六)——假設檢驗

1 細心的讀者與更正

首先感謝簡書平臺上這位叫“十七顆青彩”的讀者,她提出了我之前筆記裏的一個錯誤。具體如圖所示。

定位到博客裏就是第二部分將原假設和備擇假設的最後部分。

確實是自相矛盾了,下面的表達是錯誤的。左側檢驗和右側檢驗是反過來的。目前我在hexo搭建的博客以及CSDN博客均更正(這兩個平臺支持公式編輯),其餘博客平臺由於不支持博客平臺,這部分內容我推薦看hexo博客或者直接看我的開源項目和電子書。

應用統計學與R語言實現筆記github項目

應用統計學與R語言實現筆記電子書github項目

應用統計學與R語言實現筆記電子書地址

2 p值含義解讀、假設檢驗結論與統計學決策

無論是做線性迴歸模型,或是做假設檢驗,還是做方差分析,結果裏都會出現的就是p值。比如過去博客裏的幾張圖。

可以說p值是連接概率論與統計學的關鍵橋樑。p值的學術定義叫做:在一個假設檢驗問題中,拒絕原假設的最小顯著性水平。

這個定義很繞口,我們用之前假設檢驗的比喻來說一下。原假設是一個暖男A,正在追求的女神叫結論,但是同時還有一個高富帥叫備擇假設,也在追求女神結論。那麼女神此時在他們倆之間搖擺不定,最後用p值這樣一個指標來判定他們倆誰好誰壞,p值達到要求呢,拒絕原假設,接受備擇假設。p值沒達到要求呢,不拒絕原假設,但也不一定接受原假設(果然舔狗不得好死)。

也就是說通常來說比較常見的結論是如下。

當然以上的比喻比較少兒不宜。我們還是正經解釋下。

正如前面提到的p值是連接概率論與統計學的關鍵橋樑。其實p值就是probability value(概率值),因此p值的前提是建立在概率事件的定義上的。區分四個事件,小概率事件就是指很少概率會發生的事,比如我中了600萬的彩票,這就是小概率事件。大概率事件就是指很大概率會發生的事件,比如我買的彩票中獎金小於600萬,這就是大概率事件,畢竟能中600萬的是歐皇中的歐皇呀。此外,還有百分百事件和不可能事件,即一定會發生的事件和一定不會發生的事情,比如太陽每天都會升起,這就是百分百事件;太陽從西邊升起,這就是不可能事件。而判定一個事件是小概率事件、大概率事件、百分百事件或者不可能事件的方式就是靠p值。

而在通用的統計學模型裏面,小概率事件p值的閾值比較通用的就是0.1,0.05和0.01,也就是說該事件發生概率爲0.1,0.05和0.01。而對應的大概率事件就是相反的,發生概率分別爲0.9,0.95和0.99。而百分百事件和不可能事件的p值很好理解,一個是1,一個是0。

那麼重點問題來了,小概率事件發生概率爲0.1或者0.05或者0.01說明什麼呢?說明這個事發生的概率是0.1,0.05或者0.01。也就是說明,第一,這個事件發生概率小,但依舊有可能發生;第二,並不是說你做100次實驗,就發生10次,5次或者1次這個事件。所以對於假設檢驗的結論(這裏假定p值拒絕原假設),我們通常說的就是我們在p值對應的顯著性水平上拒絕原假設,認爲備擇假設普遍是成立的。也就是說備擇假設是個大概率事件,但這邊並不意味着原假設完全不會發生在假設檢驗通過的前提下,我們只能證實大多數情況下備擇假設是普遍成立的,但它仍然不是百分百事件,依舊有可能發生原假設事件。反過來說一件事,當假設檢驗沒通過的前提下,我們無法推翻原假設,但是我們不能說原假設是正確的,也不能說是不正確的,也無法確定具體結論,能下的結論是以當前樣本量,我們不足以推翻原假設

因此針對假設檢驗而言,p值通不過的情況下,我們往往得不到什麼明確結論。而提到這個,聯繫最近的疫情,突然想起了一個事情。

其實對於武漢衛健委這個結論,我只能說相當統計學,但是表達不夠清晰。我們可以明顯推斷出這個結論必定是在當時現有的COVID-19的流行病學樣本統計中人傳人的假設檢驗沒有通過,因此我們無法確定明確的結論。衛健委的中文表達就變得很拗口,意思模棱兩可。在某羣中,某位大佬也給出了一個很統計的結論。

但是我在想的是,即使當時給出這個結論,能不能引起民衆的足夠重視呢?另外以上言論雖隸屬某位大佬,但也是個人意見。我們只是針對一個結論在統計學上用一個術語做表達。因爲傳染病的傳播本身受到生態環境、社會經濟各種因素影響,是一個很複雜的過程。我們國家的應對很快,雖然還存在或這或那的不足,但要對打贏這場疫情戰爭充滿信心。這裏也想引一下B站一位up主的視頻,感興趣的同學可以看一看。

3 放棄p值,yes or no?

回到p值本身,當我們無法拒絕原假設時,我們可以發現p值的決策意義就變得較弱了。同時p值在近些年來的研究中也有過被質疑,比如下面的一篇Nature報道。

It’s time to talk about ditching statistical significance

題目翻譯過來應該叫做“現在是時候來談談是否要放棄統計顯著性了”。

談的是關於一羣統計學家對p值的探討。我想文中一句話很經典:真相不能用一個數字來表示。在報道中提到三位統計學家呼籲科學家放棄統計學意義。作者並不要求放棄P值本身作爲統計工具,而是希望終止使用它們作爲顯着性的任意閾值。

用p值的顯著性這樣一個數字去代表真相,往往讓我們在現實中迷失。我們太容易產生棄真和取僞的錯誤(這兩個概念不清楚的請回看我開頭的博客鏈接)。而對於人的生命而言,統計顯著性的意義又如何呢?

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章