高维数据中特征筛选方法的思考总结——单变量分析筛选法

基因组学、转录组学、蛋白组学及代谢组学等生信问题(高通量数据)中,面临的第一步往往就是降维(或者说筛选特征)。降维方法分为两大类:单变量分析降维法、多变量分析降维法。单变量降维常常使用FC值或者P值,多变量降维常常使用LASSO和PLS等方法。对于这个问题,将分为两篇文章进行探讨,本文着重探讨单变量分析筛选法。

常规方法的问题

常规的方法是使用P值法和FC值法。所谓P值法,就是对两组样本进行 t 检验(或非参数检验);所谓FC值(Fold Change)法,就是求两组样本之间的倍数变化。如果结合P值和FC值综合分析进行来筛选特征(火山图),在绝大多数情况下效果很好;但是方法没有完美的,FC值法和P值法都有其局限性。

FC值法的缺陷

先看FC值的缺陷:

代谢物X在A组15个病例中的峰值分别是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位数或平均数大致为100;

代谢物X在B组15个病例中的峰值分别是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中位数或平均数大致为110。

代谢物X的FC值(B/A)为1.1。若此时设定FC值以1.2作为界值,X将被排除出模型;然而X可能是一个很好的biomarker,无辜出局。

那么,何时用FC值呢?FC值方法有个特点:FC值越接近1的变量(或者说logFC越接近0的特征),成为好的biomarker的概率越低。也就是说,噪音变量特别多的时候,采用FC值去排除噪音变量的效率很高。亦即信噪比很低时,FC很管用。所以在特征特别多的任务中,初筛变量的第一步会用FC爽一爽。但若建模效果不理想,有可能是初筛时排除了有效的特征,这个时候应该回过头来放宽界值甚至去除FC标准。

P值法的缺陷

刚刚说的FC值法,实际上触发了假阴性的情况,那么p值其实也有类似情况,当选用非参数检验时,假阴性率会上升。因此慎用非参数检验方法。同样的道理,若初筛后发现建模效果不理想,可以回过头来放宽界值甚至选择统计学检验效能更强的方法。

 

挽救方法

挽救方法又称“豁免方法”,也就是说使用该方法认为某个特征值得保留,但在原方法中已经出局,此时可以强制保留这个特征。笔者根据自己的思考,大致提出3种挽救方式:IQR差异法、界值分类法、放宽标准方式。其中IQR差异法是笔者原创,界值分类法是笔者根据统计分析经验进行的改造。这些方法在代谢组学课题中应用效果不错。

FC值法的豁免方法

IQR差异法:任意特征在两组都可以求出25%、50%、75%这3个百分位数值,据此定义重合度。若其中一组的25%值大于另一组的75%值,则重合度为0;若A组的50%值大于B组的75%值、且A组的25%值大于B组的50%值,则重合度为1,反之亦然;若A组的50%值大于B组的75%值、或A组的25%值大于B组的50%值,则重合度为2,反之亦然;剩余的情况,重合度为3。重合度越大,差异越小。可根据情况选择不同的重合度作为界值来筛选变量。比如,该特征的重合度小于2时,可优先考虑(作为挽救特征的方法:即使FC值不显著,但是IQR显著,则仍保留)。

P值法的豁免方法

界值分类法:选择一个合适的界值将变量转化为分类变量,之后进行统计学检验,包括卡方检验、率差检验、Logistic单变量建模、一致性检验等等方法。

界值的选取其实是个值得琢磨的地方,通常情况下会选择整体数据的中位数进行二分类,但是两组样本量不平衡时,也可以根据样本量比例选择相应的百分位点值;最终模型敲定特征后,可以进一步优化界值。因此,界值分类法要做得精致,也并不是一件简单的事。选取界值有个较主观的技巧,当建模的目的是为了挑选出其中某一个类别时(该类别成为“目标类别”)(不是单纯为了更好地分类时),可以结合IQR差异法,以目标类别的50%值作为界值(笔者自己构造的特殊界值点)。这是一种个性化的统计学方法。

界值分类后,大致可以选用4种检验方法:卡方检验、率差检验(两组率的差异检验)、Logistic单变量分析、一致性检验。这4种在大多数情况下结果是差不多的,但是各方法有不同的侧重点。此处以对比卡方检验和Logistic单变量分析为例:卡方注重检验“差别”,Logistic回归注重检验“关联”。卡方的p值很小说明差别大,Logistic回归p值很小说明关联大。虽然很多情况下,差别大意味着关联大,但是有些中间模糊地带,差别稍大但不足以很相关。因此卡方检验和Logistic单变量分析在某些少数情况下结论是不一致的。

标准放宽的方法

除了放宽界值,有时候甚至可以将FC值法和P值法的关系改为“且”,就是说,FC值法和P值法同时认定需要剔除某些特征时,才剔除这些特征。将降维的重心移交给多变量分析。有时候甚至直接舍弃FC值法。这是个权衡的过程,没有绝对的标准。

 

关于FDR校正

在高维数据中,由于特征很多,做单变量分析时,很有可能增大假阳性发现。比如对于10000个特征,分别进行单因素检验,则相当于做了10000次多重检验。需要进行p值校正。最简单粗暴的校正方法是Bonferroni 校正,直接将每个变量的检验水准除以检验次数,惩罚力度过大,容易产生较大的假阴性。最常用的校正方法是FDR校正方法。

FDR表示假阳性发现率False Discovery Rate),意思是保证发现的biomarker集合中,假阳性的biomarker的比例低于一个界值(比如0.05;比如用这个水准找到了100个biomarker,则认为只要5个是假阳性发现)。FDR又称Q value,或 adjust p value。校正方法此处不赘述(网上很多资料)。

但笔者对FDR这种方法持有保守态度,因为校正更容易造成假阴性。举个栗子,对于某些真实有效的biomarker,可能在大部分数据中,其检验的p值都在0.01左右,但是采用FDR校正,则这种biomarker难逃一劫。

但是如果两批数据都是高通量数据,若取交集来筛选biomarker(检验水准都是0.05),则惩罚力度仍然不够。因此,比较好的模式应该是,在高通量(非靶向)数据中找到biomarker,然后再在新的样本中靶向检测这些biomarker,若能得到验证的则认为更可靠

 

关于多变量分析降维法,请参考:高维数据中特征筛选方法的思考总结——多变量分析筛选法

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章