多重比較校正中的一些概念

關於多重比較校正,雖然曾經查過很多東西,也大概記住一些,但最近發現沒留下多少正確的印象。所以又溫習了一遍,稍加整理,留備後用。當然,這些還是我自己的理解,如果有不對的地方,還請指出 :)

主要內容均來自wikipedia以及這個網頁.

假設我們手上有一枚硬幣,想通過拋10次硬幣的方法檢驗它的金屬分佈是否均勻,結果發現扔10次,有9次國徽朝上。此時我們打算下結論說它的分佈不均勻,恐怕被人動了手腳。但這個判斷的正確性有多大,在統計上就需要用 p-value 來衡量。p-value 就是在原假設(Null hypothesis)爲真時,得到和試驗數據一樣極端(或更極端)的統計量的概率;它本質上控制 false positive rate (FPR)。我們常說的 p 小於0.05即是說發現的現象爲假陽性結果的概率小於5%。

如果我們手上有10000枚上文提到的相同的硬幣要檢驗呢?假設針對每枚硬幣依然採用以上的方法,則這10000次檢驗完全不出錯的概率只有 (1 - 0.05) ** 10000。這在很多情況下不能接受的。此時我們面對的不再是 single test 問題,而是 multiple test。需要控制的是 family wise error rate (FWER)。一種很經典的控制FWER的方法是 Bonferroni correction。比如我們設定FWER爲0.05,則可以將所有10000次檢驗中,出現錯誤的概率控制在5%以內。

但面對 fMRI 這樣的數據,Bonferroni correction 則顯得不太合適了。Bonferroni correction 是否適用,取決於數據是否服從一個基本假設:即每次 test 是否獨立。像上面舉的拋硬幣的例子,每拋一次,顯然都是獨立事件。但像 fMRI 這樣鄰近 voxel 的信號往往具有高相關的數據,Bonferroni 矯正顯然不太適用了。爲了針對這種情況,人們選擇使用了 Random-field Theory (RFT) 進行 FWE correction。其基本假設就是空間鄰近的 voxel 具有相關(也可以說是存在由空間平滑造成的相關),則在檢驗前,先估算數據的平滑程度,再基於這一指標計算某個 voxel 不是由隨機因素引起激活的概率。這種方法相對前一種相對寬鬆很多,但研究發現,其假設要求平滑程度至少要爲數據最小空間分辨率的2-3倍(而且平滑程度越大,檢驗效果越寬鬆),使得許多研究無法採用此方法,同時也有研究表明這種矯正方式同樣過於嚴格。

鑑於以上問題,以及對 FWE 概念的理解,隨之我們採用了一種新的方法,FDR(False Discovery Rate)錯誤控制方法。FWE correction 保證的是在已通過多重比較校正的顯著的檢驗中,出現假陽性結果的概率不大於某一值(比如0.05),即發現的顯著結果中出錯(哪怕只有一個錯誤)的概率小於0.05。但研究者也都有一個信念:我們的數據是存在噪聲的,我們希望知道這些顯著的結果中,有多少是真的。FDR 方法有效的控制了在這些陽性結果中的錯誤出現率。比如在上文中提到的10000個檢驗中,只發現1000個陽性結果,即硬幣質量分佈不均,則若控制FDR的q-value爲0.05時,只對這1000個檢驗進行操作,並保證最後經過校正的檢驗結果中出現假陽性的結果的數量不多於50個(1000 * 0.05)。相對 FWER,FDR 在對結果的控制上顯然要寬鬆很多,同時也給研究帶來了更多的“有效”結果。需要提一下的是,在 FDR 校正中,對於 p-value 最小的檢驗,其校正的力度最大,隨 p-value 增大,校正力度逐漸減小,這也體現了其減少假陽性結果的目的。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章