基因芯片篩選差異表達基因方法比較

摘要: 基因芯片篩選差異表達基因方法比較單文娟, 童春發, 施季森 摘要: 使用計算機模擬數據和真實的芯片數據, 對8 種篩選差異表達基因的方法進行了比較分析, 旨在比較不同方法對基因芯片數據的篩選效果。模擬數據分析表 ...
基因芯片篩選差異表達基因方法比較
單文娟, 童春發, 施季森


摘要: 使用計算機模擬數據和真實的芯片數據, 對8 種篩選差異表達基因的方法進行了比較分析, 旨在比較不同方法對基因芯片數據的篩選效果。模擬數據分析表明, 所使用的8 種方法對均勻分佈的差異表達基因有很好的識別、檢出作用。算法方面,SAM 和Wilcoxon 秩和檢驗方法較好; 數據分佈方面, 正態分佈的識別效果較好,卡方分佈和指數分佈的識別效果較差。楊樹cDNA 芯片分析表明, SAM、Samroc 和迴歸模型方法相近, 而Wilcoxon 秩和檢驗方法與它們有較大差異。
關鍵詞: 基因芯片; 楊樹; 差異表達


    基因芯片技術是隨着“人類基因組計劃”(Humangenome project, HGP)發展起來的一項新技術, 可廣泛應用於基因序列分析、基因突變檢測和多態性分析以及疾病的基因診斷等領域。基因芯片技術可以同時檢測生物樣本成千上萬個基因的表達水平, 從而得到基因組水平的基因表達譜數據。通過對這些數據的分析, 能夠了解基因的功能甚至基因之間的相互作用。爲了達到這一目的, 最關鍵的步驟是從表達譜中篩選出潛在的差異表達基因[1], 常用的是兩種不同實驗條件下差異表達基因的篩選。不同的實驗條件包括: 不同的生物組織、不同的試劑或藥物處理、不同的發育時期、不同的實驗處理等。

    基因表達數據可以在3 個層次上加以分析: (1)單基因水平, 即分析基因在兩種實驗條件之間的差異; (2)分析功能相似的基因及基因之間的相互作用、共調控等; (3)基於基因網絡及蛋白質網絡的研究[2]

    本文只進行第一層次上單基因水平差異表達基因的研究。差異表達通常指一個基因在兩種試驗條件下表達水平值在排除實驗、檢測等因素後達到一定的差異, 具有統計學意義, 同時也具有生物學意義[3]。常用的統計方法包括參數方法和非參數方法兩類。Newton 等[4]提出了用於分析差異表達的貝葉斯模型;Baldi 和Long 等[2]使用了貝葉斯模型方案分析正態分佈的數據; Lonnstedt 和Speed [5]使用了參數貝葉斯方法分析芯片數據, Smyth 等[6]在此基礎上提出了更加實用的系統模型。

    以上的參數方法都假設基因芯片數據服從正態分佈, 這種假設與實際情況存在差異。非參數方法直接估計檢驗統計量的分佈情況, 不對數據的分佈做任何假設, 在這一點上優於參數方法。非參數方法包括Tusher 等[7]提出的SAM,Dudoit 等[8]提出的調整值的T-檢驗及Pan等[9]提出的混合模型方法(MMM)等。Nykter 等[10]指出由於目前缺乏生物學背景的準確信息, 無法對各種算法進行有效的評價, 因此使用已知樣本數據特徵的計算機模擬數據(Simulateddatasets)可以解決以上難題。計算機模擬數據根據實驗的需要進行設計, 是檢測基因芯片數據分析方法的常用手段。模擬數據包括兩部分: 差異表達基因的模擬表達值和非差異表達基因的模擬表達值, 具有兩種或兩種以上的實驗條件(組織樣本)及(n≥3)生物學重複。差異表達基因一般佔基因總數的5%。根據Kim 等[11]、Perelman等[12]和Shaik 等[13]等的設計思想, 以正態分佈爲例, 非差異表達基因在不同實驗條件下其基因表達值的均值和方差都沒有差異; 而差異表達基因的均值都存在差異, 方差可以相同也可以不同
    目前芯片模擬數據一般只考慮正態分佈的情況,如kim 等[11]比較了T-檢驗、B-統計量(B-statistic)、貝葉斯T-檢驗3 種參數方法和SAM、Samroc、Zhao-Pan 3 種非參數方法對正態分佈的篩選效果。Hunter 等[14]、Thomas等[15]、Pan 等[16]、Craig 等[17]、Giles 等[18]、Liu 等[19]、Zhao 和Pan 等[20]指出, 即使基因芯片表達數據經過預處理後仍然不滿足正態分佈。Neuhauser 等[21]使用了均勻分佈、卡方分佈、柯西分佈和指數分佈的數據對T-檢驗、Wilcoxon 秩和檢驗、FP 檢驗(Fisher-Pitman permutation test)、B 檢驗(Baumgartner-Wei β-Schindler test)4 種統計方法進行了分析。

    本文使用8 種篩選差異表達基因方法(詳見1.3)分別對4 種分佈的計算機模擬數據以及真實的芯片數據進行分析。參照Neuhauser 所採用的數據分佈, 本文的芯片模擬數據包括正態分佈、均勻分佈、卡方分佈和指數分佈, 以便全面分析各種方法對不同分佈數據差異表達基因的識別情況。
基因芯片篩選差異表達基因方法比較

材料和方法
1.1 模擬數據

使用R 軟件[22]生成模擬數據, 包括4 種分佈: 正態分佈、均勻分佈、卡方分佈和指數分佈。以正態分佈爲例, 非差異表達基因的表達值設定3 種方案, 差異表達基因的表達值在對照樣本和實驗樣本中也分別設定3 種方案, 詳細方案見表1。我們產生10 000 個基因的表達數據, 其中9 500 個爲非差異表達基因數據, 500 個爲差異表達基因數據。每個非差異表達基因的表達數據從已設定的3 種方案中任取一種產生, 共產生12 個數據, 前6 個數據爲實驗(樣本)數據, 後6個爲對照(樣本)數據(說明: 使用R 軟件模擬數據時爲一次性同時產生6 個符合條件的數據集, 即一次性產生實驗數據集或對照數據集)。同樣, 每個差異表達基因的表達數據從已設定的3對方案中任取一對, 用表1實驗欄中的分佈產生6 個數據作爲實驗數據, 用表1對照欄中的分佈產生6 個數據作爲對照數據。如果一個基因的12 個數據佔據一行, 那麼這120 000 個數據構成一個10 000行12 列的數據表格或矩陣, 其中每列數據表示一個芯片上10 000 個基因的表達數據。該實驗方案的生物學重複數爲6。採用不同的統計方法對此分析, 並記錄分析結果。

以上所作的模擬相當於一次實際實驗, 所得結論不具有統計學意義, 我們將以上模擬重複了500次, 對每種分析方法統計500 次並分析結果, 以鑑別不同分析方法的優劣性。

1.2 真實芯片數據

本文采用的真實芯片數據爲Andersson等[23]發表文章中的楊樹cDNA 芯片數據。該實驗研究了楊樹秋天葉片衰老的機制, 芯片的13 490 個克隆是由7 個cDNA 文庫中的36 354 個楊樹EST 序列拼接而成, 其中有12 376(92%)個功能已知。實驗材料爲瑞典北部生長期超過30 年的雄性白楊樹Aspen(Populus tremula)葉片, 對照樣本和實驗樣本的生物學重複數分別爲3 和4。


1.3 差異表達基因篩選方法
    使用以下8 種篩選差異表達基因的方法: 

(1)T-檢驗(T-test)[11],是較常用的統計方法, 用於判斷某一基因在兩個樣本中其表達是否有顯著性差異, 不要求等方差;

(2)貝葉斯T-檢驗(Bayes T-test)[2, 24], 這種方法的最大優點是結合了一個基因樣本間的差異和部分基因之間的差異信息, 即對於某一基因方差的估計, 既考慮到了基因本身樣本間差異又利用了具有相似表達水平的部分基因(定義爲鄰近基因, Neighborhood gene)的合併方差, 且兩者之間使用加權值, R 語言開發的Cyber-T 軟件實現了這一統計量的應用, 網址http://www.genomics.uci.edu/

(3)SAM(Significance analysis of microarrays), 由Tusher、Tibshirani和Chu 提出[7, 11], SAM 是非參數的統計方法, 與T-檢驗相似, 爲了避免T-檢驗中由於方差太小而誤判某基因爲差異表達基因的不足, SAM在分母上增加了一個較小的正值;

(4)Zhao和Pan 方法[20], 非參數的統計方法, 其關鍵在於估計檢驗統計量的零分佈(Null distribution) g Z ,並直接構建了零統計量(Null statistic) g z 。非參數方法的早期研究包括Efron 的經典貝葉斯方法[25]、Tusher的SAM[7]、Pan 的MMM 方法[9], Zhao 和Pan 指出它們存在的一個共同問題是g Z g z 的分子與分母之間都是非獨立的, 因此提出了新的g Z g z 計算方法, 詳見參考文獻[20];

(5)Samroc方法, 由Broberg[26]提出,使用這一統計量的R 語言軟件是SAG, 網址http://home.swipnet.se/pibroberg;

    (6) 迴歸模型方法(Regression modeling approach), Thomas 等[15]於2001年提出了這種鑑定兩種不同實驗條件差異表達基因的方法, 其給出的迴歸方程不僅包括篩選差異表達基因部分, 還包括數據的預處理部分, 本文只討論篩選差異表達基因部分; 

(7)PaGE[27,28], 是使用perl 語言編寫的用於分析基因芯片表達譜數據的生物學軟件, 最初由Manduchi 等提出[29], 其界面簡單, 使用方便, 該算

法經過了不斷改進, 使用FDR 估計置信水平, 並對FDR的估計方法也給予了修改, 使其估計值更加準確;
    (8) Wilcoxon 秩和檢驗(Wilcoxon rank sum test), 又稱Mann-Whitney 檢驗[30], 也是一種非參數的檢驗方法,該方法要比T-檢驗更加穩健, 更適合非正態分佈的數據, 要求兩樣本數據分佈相同。

結果與分析
2.1 模擬數據結果分析

由於模擬數據產生時差異表達基因佔基因總數的5%, 即10 000 個基因中有500 個基因爲差異表達基因, 因此判斷某一方法檢測差異基因的有效性主要取決於: 按統計量值排序後前500 個基因中檢測出的差異表達基因的個數和平均秩。

基因芯片篩選差異表達基因方法比較

表2 中每項包含兩個數據, 如對應於正態分佈和T-檢驗的數據爲136.90、202.43, 第一個數據表示按統計量(從大到小)排序, 位於前500 個基因中的差異表達基因總數, 第二個數據表示這些差異表達基因的平均秩。例如T-檢驗在分析正態分佈的某個模擬樣本數據時, 按統計量值排序後前500 個基因中差異表達基因檢測到137 個, 這樣分析500 個模擬樣本數據後得到的平均值爲136.90;“202.43” 表示500 個模擬樣本數據檢測到的差異表達基因的平均秩的平均值爲202.43,平均秩是指排在前500 個基因中差異表達基因的秩和除以差異表達基因個數。篩選出的差異表達基因個數越多越好; 而平均秩越低, 則說明差異表達基因的排位越靠前, 使用相應的檢測方法篩選出差異表達基因的可能性越大。


對於正態分佈, SAM和Bayes T-test兩種方法最佳,在前500 個基因中都檢測到了157 個以上的差異表達基因, 平均秩也較低。其次爲Wilcoxon 秩和檢驗、迴歸模型方法、T-檢驗和Samroc。PaGE 的平均秩最小,但其檢測到的差異表達基因個數較少。


對於均勻分佈, 所有方法的平均秩都在200 左右, 差異不大, 因此可以不考慮此值對檢測效果帶來的影響。SAM 和PaGE 兩種方法最佳, 在前500個基因中都檢測到了較多的差異表達基因, 約佔差異表達基因總數的80%。其次爲Bayes T-test 和Wilcoxon 秩和檢驗, 再次爲迴歸模型方法、T-檢驗和Samroc。


對於卡方分佈, SAM 最佳, 檢測到的差異表達基因數量較多且平均秩較低。其次爲Wilcoxon 秩和檢驗和Bayes T-test。Wilcoxon 秩和檢驗檢測到的差異表達基因數量最多但平均秩最高; Bayes T-test 檢測到的差異表達基因數量較少但其平均秩較低。再次爲Samroc、迴歸模型方法和T-檢驗。


對於指數分佈, SAM 最佳, 檢測到的差異表達基因數量最多且平均秩較低。Wilcoxon 秩和檢驗檢測到的差異表達基因數量也較多, 但不足的是平均秩最高。PaGE 的平均秩非常低, 檢測到的差異表達基因數目與T-test、Samroc 和迴歸模型方法相近, 說明PaGE 要優於它們。與SAM 相比較, PaGE 的不足是檢測到的差異表達基因偏少, 這或許與其檢測到的差異表達基因數目少有一定關係。


從整體上看, 均勻分佈的檢測結果最好,Zhao-Pan 檢測到的差異表達基因最少, 卻也檢測到了286 個, 佔全部差異表達基因的57.2%。其次爲正態分佈, 其餘兩種分佈的檢測結果都不佳, 檢測到的差異表達基因都不超過100 個。爲了充分考察篩選差異表達基因的各種方法, 本文在設計模擬數據時差異表達基因與非差異表達基因的區別較小, 但以上結果一定程度的說明八種差異表達基因篩選方法對均勻分佈有很好的識別、檢出作用, 對正態分佈識別效果較好, 而對卡方分佈和指數分佈識別效果較差。從檢測方法來看, SAM 最好, 其次爲Wilcoxon秩和檢驗, 不足的是其平均秩有時較高。迴歸模型和T-檢驗對正態分佈和均勻分佈的檢測結果非常相近。迴歸模型和Samroc 對卡方分佈和指數分佈的檢測結果非常相近, 且這兩種方法比較穩定, 具有較好的檢測結果。Bayes T-test 比較適合檢測正態分佈和均勻分佈的數據。PaGE 不適合檢測卡方分佈的數據。Zhao-Pan的檢測結果平均秩一般較高, 檢測到的差異表達基因數目也較少。


2.2 楊樹cDNA 芯片數據結果分析
    Andersson 等使用SAM 對楊樹cDNA 芯片數據進行了差異表達基因的篩選, 共得到874 個差異表達基因。本文根據模擬數據分析的結果, 採用了Wilcoxon 秩和檢驗、迴歸模型和Samroc 3 種比較穩定的方法, 對其3 792 個有顯著表達的基因再次做了篩選分析。我們發現3 種分析得到的差異表達基因個數都很多, 均在2 000 個以上, 於是我們根據統計量分別選取了排在前面的874 個基因。結果表明,迴歸模型與SAM 都檢測爲差異表達的基因共有649個; Samroc 與SAM 都檢測爲差異表達的基因共有687 個; Wilcoxon 秩和檢驗與SAM 都檢測爲差異表達的基因共有381 個; SAM、Samroc 和迴歸模型3種方法都檢測爲差異表達的基因共有622 個, 佔總數的71%; SAM、Samroc、Wilcoxon 秩和檢驗及迴歸模型4 種方法都檢測爲差異表達的基因共有305個。以上結果說明SAM、Samroc 和迴歸模型方法有較多的共同點, 而Wilcoxon 秩和檢驗方法與它們有較大的差異。
    基因芯片篩選差異表達基因方法比較

      表3 爲SAM 篩選到的排在前20 位的基因在Samroc、Wilcoxon 秩和檢驗和迴歸模型3 種方法檢測結果中的統計量值或值及其秩。從表3 可以看出, Wilcoxon 秩和檢驗方法有一個缺點, 由於它本身依靠排秩的方法來篩選基因, 使得某些基因的統計量值相同, 無法進一步區分它們。另外, Samroc和迴歸模型方法具有更大的相似性, 例如它們都將A024P46(Clone ID)排在了第一位, 將I027P15 排在了第6 位, 還將F065P41、I004P59、I059P90 都排在了百位之後。

討 論

Kim 等[11]對模擬數據做分析時指出, 在其研究的所有情況下SAM 和Samroc 表現最好, 而且當樣本數較小時Samroc 比SAM 更好。在本研究中SAM表現好再次得到證實, 但其要明顯好於Samroc, 這或許與使用的生物學重複數不同有關, 因爲Kim 所使用的小樣本重複數爲4, 本文使用的重複數爲6。Neuhauser 等[21]指出當生物學重複數爲6 及以上時,其所研究的4 種方法才能夠較好的篩選差異表達基因, 這也正是本文生物學重複數爲6 的原因。另外,Kim 只對正態分佈的情況做了分析。他還指出,Bayes T-test 在檢測小樣本數據時表現最好,T-檢驗篩選差異表達基因的效果也不錯。本文得出正態分佈數據的分析結果與其相似, 只是SAM的篩選結果比Bayes T-test更好。


我們發現Bayes T-test不穩定,對卡方和指數分佈的數據不敏感, 對這兩種分佈數據的檢測結果不太理想。SAM、Samroc 和迴歸模型方法在分析真實芯片數據時得到了比較理想的結果, 但在分析卡方分佈及指數分佈的模擬數據時表現不佳, 其原因應該與真實芯片數據的分佈特徵有關, 因此對芯片數據的分佈特徵做一個簡單的檢測, 再有針對性地選擇適合相應分佈的分析方法, 或許有利於提高篩選差異表達基因的準確率。另外, SAM 在4 種分佈中除了卡方分佈的篩選結果沒有達到最大外, 其餘3 種分佈均篩選到最多的差異表達基因, 這可能與SAM 通過調整△(SAM的一個統計量)的值來控制FDR 以得到更準確的結果有關, 並且可能與SAM算法的不斷改進有關。根據Zimmerman 等[31]以及Blair 等 [32]的報道, Wilcoxon 秩和檢驗方法要好於T-檢驗, 本文的結果與其相同, 而且Wilcoxon 秩和檢驗方法還是一種比較穩定的篩選方法。


本文研究發現, 基因芯片數據經過分析後得到的差異表達基因的數量有時較多, 這使得生物學家無法從分析結果中挑選自己感興趣的基因, 最簡單的方法是根據統計量篩選適量的基因進行後續分析。另外可以使用多種方法分析, 結果取其交集, 這樣可以一定程度上避免假陽性基因帶給後期驗證分析的麻煩。此外, 研究數據分析方法的特點有助於做好數據挖掘工作, 改進模擬數據方案有利於充分檢驗算法的特徵,並推進基因芯片數據分析的發展。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章