基于分布状态的两样本非参数检验

Fisher精确检验(基于超几何分布)的基本假设可以通俗理解为:如果当前分组方式是一种随机现象(无意义的分组),那么基于当前分组出现当前离散分布的可能性有多大(当然严格意义上应该这么说:比当前分布状态更极端的各分布状态的累积概率是多少 [包含与当前分布状态类似的状态] 。严格的描述有点拗口,以下仍采用这种简单懒惰的描述——“可能性”。这种懒惰的描述其实也让全文的描述显得很怪很不严谨)。

那么,能否将这种推断思维推广到连续分布中,从而提高非参数检验的功效呢?笔者进行了如下尝试。

简单的 3 vs.3 案例(3例样本的情况容易演示,这种推导思路也可以适用于样本量稍大的情况):比如对于某分子X,

治疗敏感组(A组)的3个病例的X分子表达量为:1, 2, 4

治疗抵抗组(B组)的3个病例的X分子表达量为:3, 5, 6

对X分子的表达量进行排序,得到的分布状态为:AABABB 

原假设:假设X分子不是预测疗效的biomarker(X分子表达量与疗效无关,使用疗效分组无意义,两组数值来自相同整体。以下推导都基于这个假设)。如果X分子是疗效的biomarker,那么分布状态的极端情况应该是:AAABBBBBBAAA。为了类比Fisher精确检验的思路(从极端到当前状态的概率求和),解析 分布状态的转移情况如下:

      

每转换一次,都是将一个三角形与右侧相邻的一个圆形交换位置(让三角形整体略微更靠右)。

上述每个状态出现的概率相等,共有20种状态(6个位置选3个,排列组合可以计算)。当两组数据来自同一总体时(即分组无意义时),每种状态出现的概率都为1/20。因此,对于第一行分布形式出现的可能性为2/20(第一行与最后一行的分布形式一样),对于第二行分布形式出现的可能性为4/20(需包含第一行这种极端情况,以及考虑对称的下方的分布状态;严格来说需理解为概率分布两端的累积概率),对于第三行分布形式出现的可能性为8/20。对于示例的问题的答案也就是 出现第二行的分布形式(AABABB)对应的可能性(累积概率):0.2。

本来以为推演出了个新的检验方法,然而与Wilcoxon检验一对比,发现Wilcoxon的p值与上述推导得到的“可能性”数值完全相等。用4 vs. 4及4 vs. 5 等情况重新验证,发现各个状态形式对应的“可能性”与Wilcoxon的p值也完全相等。为什么会这样?笔者想了下,Wilcoxon基于秩和,而此处的排列方式转移,每转换一次则三角形的秩和会加1,二者背后的哲学是一致的。

Wilcoxon秩和检验对于相同秩的情况不好处理,那么这种推断方法又如何呢?

将上述例子中的最中间两个位置变成相同数值,则共有14种状态(根据是否有2个三角形相同秩,分2种情况。当没有两个三角形的秩相同时为:从5个位置选3个;当有两个三角形的秩相同时为:从剩下的4个位置选1个。因此结果是10+4)。则出现最极端的情况(第一行形式的分布)的可能性为2/14=0.1429;而Wilcoxon计算的p=0.1212。二者略有区别。如果仅是在相同秩的情况下让检验变得更加保守,那么并不是笔者的初衷(让非参数检验的功效提高)。

 

这个方法并不是严格意义的概率推断,计算的仍然是累积概率(本质上和Wilcoxon一样)。各类检验的基本思维都是相通的,都是依赖于概率分布两端的累积概率作为“犯第一类错误”的可能性。若想跳出Wilcoxon这个怪圈,要么换一个更好的分布描述形式(更充分利用分布的集中趋势等信息);要么直接抛弃“计算 犯第一类错误的可能性”的思维,走贝叶斯推断的路线。

Wilcoxon着实是一种灵敏度很低检验方法,丢失了特征的绝对数值大小。再举个简单例子

治疗敏感组(A组)的3个病例的X分子表达量为:1, 2, 3

治疗抵抗组(B组)的3个病例的X分子表达量为:40, 50, 60

使用Wilcoxon检验p=0.1,而使用 t 检验则p=0.01。

对于非正态分布数据同样存在类似的问题。如何充分利用非正态分布数据的绝对数值大小,从而提高检验功效,或许值得进一步思考。

 

没能想到更好的非参数检验方法才是正常情况,谨以此文记录近日之思考。

 

----------------------------------------------------------

2019年11月18日

本文所采用的思路(包括Fisher精确检验的思路)本质上就是置换检验(Permutation Test),只是检验的统计量不同而已。本文的统计量不是一个值,而是一种分布形态。有人提出使用以均值之差作为统计量的置换检验来考虑非正态数据的检验问题,但不知合理性如何。

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章