基於分佈狀態的兩樣本非參數檢驗

Fisher精確檢驗(基於超幾何分佈)的基本假設可以通俗理解爲:如果當前分組方式是一種隨機現象(無意義的分組),那麼基於當前分組出現當前離散分佈的可能性有多大(當然嚴格意義上應該這麼說:比當前分佈狀態更極端的各分佈狀態的累積概率是多少 [包含與當前分佈狀態類似的狀態] 。嚴格的描述有點拗口,以下仍採用這種簡單懶惰的描述——“可能性”。這種懶惰的描述其實也讓全文的描述顯得很怪很不嚴謹)。

那麼,能否將這種推斷思維推廣到連續分佈中,從而提高非參數檢驗的功效呢?筆者進行了如下嘗試。

簡單的 3 vs.3 案例(3例樣本的情況容易演示,這種推導思路也可以適用於樣本量稍大的情況):比如對於某分子X,

治療敏感組(A組)的3個病例的X分子表達量爲:1, 2, 4

治療抵抗組(B組)的3個病例的X分子表達量爲:3, 5, 6

對X分子的表達量進行排序,得到的分佈狀態爲:AABABB 

原假設:假設X分子不是預測療效的biomarker(X分子表達量與療效無關,使用療效分組無意義,兩組數值來自相同整體。以下推導都基於這個假設)。如果X分子是療效的biomarker,那麼分佈狀態的極端情況應該是:AAABBBBBBAAA。爲了類比Fisher精確檢驗的思路(從極端到當前狀態的概率求和),解析 分佈狀態的轉移情況如下:

      

每轉換一次,都是將一個三角形與右側相鄰的一個圓形交換位置(讓三角形整體略微更靠右)。

上述每個狀態出現的概率相等,共有20種狀態(6個位置選3個,排列組合可以計算)。當兩組數據來自同一總體時(即分組無意義時),每種狀態出現的概率都爲1/20。因此,對於第一行分佈形式出現的可能性爲2/20(第一行與最後一行的分佈形式一樣),對於第二行分佈形式出現的可能性爲4/20(需包含第一行這種極端情況,以及考慮對稱的下方的分佈狀態;嚴格來說需理解爲概率分佈兩端的累積概率),對於第三行分佈形式出現的可能性爲8/20。對於示例的問題的答案也就是 出現第二行的分佈形式(AABABB)對應的可能性(累積概率):0.2。

本來以爲推演出了個新的檢驗方法,然而與Wilcoxon檢驗一對比,發現Wilcoxon的p值與上述推導得到的“可能性”數值完全相等。用4 vs. 4及4 vs. 5 等情況重新驗證,發現各個狀態形式對應的“可能性”與Wilcoxon的p值也完全相等。爲什麼會這樣?筆者想了下,Wilcoxon基於秩和,而此處的排列方式轉移,每轉換一次則三角形的秩和會加1,二者背後的哲學是一致的。

Wilcoxon秩和檢驗對於相同秩的情況不好處理,那麼這種推斷方法又如何呢?

將上述例子中的最中間兩個位置變成相同數值,則共有14種狀態(根據是否有2個三角形相同秩,分2種情況。當沒有兩個三角形的秩相同時爲:從5個位置選3個;當有兩個三角形的秩相同時爲:從剩下的4個位置選1個。因此結果是10+4)。則出現最極端的情況(第一行形式的分佈)的可能性爲2/14=0.1429;而Wilcoxon計算的p=0.1212。二者略有區別。如果僅是在相同秩的情況下讓檢驗變得更加保守,那麼並不是筆者的初衷(讓非參數檢驗的功效提高)。

 

這個方法並不是嚴格意義的概率推斷,計算的仍然是累積概率(本質上和Wilcoxon一樣)。各類檢驗的基本思維都是相通的,都是依賴於概率分佈兩端的累積概率作爲“犯第一類錯誤”的可能性。若想跳出Wilcoxon這個怪圈,要麼換一個更好的分佈描述形式(更充分利用分佈的集中趨勢等信息);要麼直接拋棄“計算 犯第一類錯誤的可能性”的思維,走貝葉斯推斷的路線。

Wilcoxon着實是一種靈敏度很低檢驗方法,丟失了特徵的絕對數值大小。再舉個簡單例子

治療敏感組(A組)的3個病例的X分子表達量爲:1, 2, 3

治療抵抗組(B組)的3個病例的X分子表達量爲:40, 50, 60

使用Wilcoxon檢驗p=0.1,而使用 t 檢驗則p=0.01。

對於非正態分佈數據同樣存在類似的問題。如何充分利用非正態分佈數據的絕對數值大小,從而提高檢驗功效,或許值得進一步思考。

 

沒能想到更好的非參數檢驗方法纔是正常情況,謹以此文記錄近日之思考。

 

----------------------------------------------------------

2019年11月18日

本文所採用的思路(包括Fisher精確檢驗的思路)本質上就是置換檢驗(Permutation Test),只是檢驗的統計量不同而已。本文的統計量不是一個值,而是一種分佈形態。有人提出使用以均值之差作爲統計量的置換檢驗來考慮非正態數據的檢驗問題,但不知合理性如何。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章