高維數據中特徵篩選方法的思考總結——單變量分析篩選法

基因組學、轉錄組學、蛋白組學及代謝組學等生信問題(高通量數據)中,面臨的第一步往往就是降維(或者說篩選特徵)。降維方法分爲兩大類:單變量分析降維法、多變量分析降維法。單變量降維常常使用FC值或者P值,多變量降維常常使用LASSO和PLS等方法。對於這個問題,將分爲兩篇文章進行探討,本文着重探討單變量分析篩選法。

常規方法的問題

常規的方法是使用P值法和FC值法。所謂P值法,就是對兩組樣本進行 t 檢驗(或非參數檢驗);所謂FC值(Fold Change)法,就是求兩組樣本之間的倍數變化。如果結合P值和FC值綜合分析進行來篩選特徵(火山圖),在絕大多數情況下效果很好;但是方法沒有完美的,FC值法和P值法都有其侷限性。

FC值法的缺陷

先看FC值的缺陷:

代謝物X在A組15個病例中的峯值分別是:92,95,95,96,96,97,98,100,101,101,101,102,102,103,103,中位數或平均數大致爲100;

代謝物X在B組15個病例中的峯值分別是:106,107,108,108,108,108,109,110,111,112,112,112,113,113,115,中位數或平均數大致爲110。

代謝物X的FC值(B/A)爲1.1。若此時設定FC值以1.2作爲界值,X將被排除出模型;然而X可能是一個很好的biomarker,無辜出局。

那麼,何時用FC值呢?FC值方法有個特點:FC值越接近1的變量(或者說logFC越接近0的特徵),成爲好的biomarker的概率越低。也就是說,噪音變量特別多的時候,採用FC值去排除噪音變量的效率很高。亦即信噪比很低時,FC很管用。所以在特徵特別多的任務中,初篩變量的第一步會用FC爽一爽。但若建模效果不理想,有可能是初篩時排除了有效的特徵,這個時候應該回過頭來放寬界值甚至去除FC標準。

P值法的缺陷

剛剛說的FC值法,實際上觸發了假陰性的情況,那麼p值其實也有類似情況,當選用非參數檢驗時,假陰性率會上升。因此慎用非參數檢驗方法。同樣的道理,若初篩後發現建模效果不理想,可以回過頭來放寬界值甚至選擇統計學檢驗效能更強的方法。

 

挽救方法

挽救方法又稱“豁免方法”,也就是說使用該方法認爲某個特徵值得保留,但在原方法中已經出局,此時可以強制保留這個特徵。筆者根據自己的思考,大致提出3種挽救方式:IQR差異法、界值分類法、放寬標準方式。其中IQR差異法是筆者原創,界值分類法是筆者根據統計分析經驗進行的改造。這些方法在代謝組學課題中應用效果不錯。

FC值法的豁免方法

IQR差異法:任意特徵在兩組都可以求出25%、50%、75%這3個百分位數值,據此定義重合度。若其中一組的25%值大於另一組的75%值,則重合度爲0;若A組的50%值大於B組的75%值、且A組的25%值大於B組的50%值,則重合度爲1,反之亦然;若A組的50%值大於B組的75%值、或A組的25%值大於B組的50%值,則重合度爲2,反之亦然;剩餘的情況,重合度爲3。重合度越大,差異越小。可根據情況選擇不同的重合度作爲界值來篩選變量。比如,該特徵的重合度小於2時,可優先考慮(作爲挽救特徵的方法:即使FC值不顯著,但是IQR顯著,則仍保留)。

P值法的豁免方法

界值分類法:選擇一個合適的界值將變量轉化爲分類變量,之後進行統計學檢驗,包括卡方檢驗、率差檢驗、Logistic單變量建模、一致性檢驗等等方法。

界值的選取其實是個值得琢磨的地方,通常情況下會選擇整體數據的中位數進行二分類,但是兩組樣本量不平衡時,也可以根據樣本量比例選擇相應的百分位點值;最終模型敲定特徵後,可以進一步優化界值。因此,界值分類法要做得精緻,也並不是一件簡單的事。選取界值有個較主觀的技巧,當建模的目的是爲了挑選出其中某一個類別時(該類別成爲“目標類別”)(不是單純爲了更好地分類時),可以結合IQR差異法,以目標類別的50%值作爲界值(筆者自己構造的特殊界值點)。這是一種個性化的統計學方法。

界值分類後,大致可以選用4種檢驗方法:卡方檢驗、率差檢驗(兩組率的差異檢驗)、Logistic單變量分析、一致性檢驗。這4種在大多數情況下結果是差不多的,但是各方法有不同的側重點。此處以對比卡方檢驗和Logistic單變量分析爲例:卡方注重檢驗“差別”,Logistic迴歸注重檢驗“關聯”。卡方的p值很小說明差別大,Logistic迴歸p值很小說明關聯大。雖然很多情況下,差別大意味着關聯大,但是有些中間模糊地帶,差別稍大但不足以很相關。因此卡方檢驗和Logistic單變量分析在某些少數情況下結論是不一致的。

標準放寬的方法

除了放寬界值,有時候甚至可以將FC值法和P值法的關係改爲“且”,就是說,FC值法和P值法同時認定需要剔除某些特徵時,才剔除這些特徵。將降維的重心移交給多變量分析。有時候甚至直接捨棄FC值法。這是個權衡的過程,沒有絕對的標準。

 

關於FDR校正

在高維數據中,由於特徵很多,做單變量分析時,很有可能增大假陽性發現。比如對於10000個特徵,分別進行單因素檢驗,則相當於做了10000次多重檢驗。需要進行p值校正。最簡單粗暴的校正方法是Bonferroni 校正,直接將每個變量的檢驗水準除以檢驗次數,懲罰力度過大,容易產生較大的假陰性。最常用的校正方法是FDR校正方法。

FDR表示假陽性發現率False Discovery Rate),意思是保證發現的biomarker集合中,假陽性的biomarker的比例低於一個界值(比如0.05;比如用這個水準找到了100個biomarker,則認爲只要5個是假陽性發現)。FDR又稱Q value,或 adjust p value。校正方法此處不贅述(網上很多資料)。

但筆者對FDR這種方法持有保守態度,因爲校正更容易造成假陰性。舉個栗子,對於某些真實有效的biomarker,可能在大部分數據中,其檢驗的p值都在0.01左右,但是採用FDR校正,則這種biomarker難逃一劫。

但是如果兩批數據都是高通量數據,若取交集來篩選biomarker(檢驗水準都是0.05),則懲罰力度仍然不夠。因此,比較好的模式應該是,在高通量(非靶向)數據中找到biomarker,然後再在新的樣本中靶向檢測這些biomarker,若能得到驗證的則認爲更可靠

 

關於多變量分析降維法,請參考:高維數據中特徵篩選方法的思考總結——多變量分析篩選法

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章