時間序列數據分析的部分綜述

翻譯整理自


時間系列研究的是gene表達的動態行爲。鑑定靜態實驗的差異表達gene已經做了很多的工作。但是因爲gene表達是動態的調控過程,所以鑑定並且找出gene表達隨時間的表達變化也非常重要。這篇文章,我們呈現一個總體的統計學方法,來鑑定隨時間變化的差異表達gene。 對於數據系列的微陣列數據,有幾種聚類方法應用的很好,包括有等級聚類,基於主成份分析的聚類,基於貝葉斯模型的聚類,kmeans聚類曲線。但是,這些聚類方法中沒有一種可以直接應用於鑑定那些隨時間變化的有統計學意義的gene。Kmeans聚類方法已經修正來比較兩組之間時間系列的表達,但這個模型只適合一次分析幾百個gene,因爲計算問題。作者開發的這個方法可以用於多個時間點,不受內存的限制。一次可以檢測40,000個gene。 作者文章用了兩個實驗。一個是處理組和非處理組,處理組用內毒素處理,目的是鑑定那些用內毒素處理過的不同時間點的gene表達變化,第二個研究,作者是檢查腎臟皮質的差異表達gene,時間系列則是age,也就是看不同年齡,27~9歲。

樣本信息 內毒素使用前和後的2,4,6,9小時。 提取RNA後用的U133A和B芯片。共44924個探針集。DCHIP進行標準化,表達水平只用perfect-match-only model。然後進行log2轉換。 結果,在時間系列這個實驗中,共顯著差異探針集4163個(<0.1%)。其中有3892個有匹配的gene IDs,去重複後有2914個gene。

時間系列的綜述

作者把計算挑戰分爲四個分析水平 實驗設計,數據分析,模式識別,網絡 對每一個水平而言,作者分別討論計算和生物學問題。並且剔除一些方法試圖處理這些問題。這些層次的很多問題被討論。這個綜述期望能服務於,一,對實驗生物學家提供一些分析數據的參考點,以解決實際問題。二,對那些對時間系列問題感興趣的計算科學家提供一個開始點

這篇論文中,我們區分靜態的和時間系列實驗。在靜態表達實驗中,不同樣本之間的gene表達情況做一簡要說明,但是在時間系列試驗中,時間過程被測量。兩種類型數據之間,另外一個重要的區別是,從一個樣本羣體中來的靜態數據(比如卵巢癌病人)被認爲是獨立相同分佈independent identically distributed,而時間系列展示了一系列點之間強烈的自相關性。之前處理時間系列數據的方法是靜態的方法,最近專門針對時間系列數據處理的算法被提出來。正像這篇文章所述及的,這些算法可以解決對時間系列表達數據來說特殊的問題也允許我們充分利用這些數據,通過利用他的unique特徵。基因表達是一個時間過程,不同的情況下爲了實現不同的功能不同的蛋白質需要合成。甚至在穩定的狀態下,因爲蛋白組的講解,mRNA不斷的被轉錄,新蛋白不斷的合成。這個過程是高度被調控的。細胞調控gene表達的重要方式之一是使用一個feedback 環。其中有一些蛋白是轉錄因子。這些蛋白調控其他gene的表達(也有可能調控他們自己的表達),通過啓動或抑制轉錄。當細胞面對新的狀況時,比如飢餓,感染和壓力,他們就會激活一些新的表達模式。許多cases下,這個表達program通過激活一些TFs開始,這又反過來激活其他的gene,而這些gene又是對新情況的反應。他能夠過對適應一個新環境而表達產生的gene大概分析,我們可以知道,這些gene中的一部分只在一些新condition下特異表達。然而,爲了確定在這些狀況下表達的完整的gene set,進而確定這些gene間的相互關係,非常有必要來測量表達實驗的時間系列。這就允許我們來確定的不是是新情況下的穩定狀態,還有爲了到達這種新的state被激活的那些通路和網絡。

第一部分 時間系列表達實驗的example 這一部分主要展示需要時間系列來回答的生物學問題的廣泛範疇。這些問題中的很多包括計算方面,上面我們已經討論過了。 生物系統****biological systems 研究的最廣泛的系統是細胞週期。這個system在發育,癌症和其他很多生物學過程中起到重要作用。在過去四十年間研究的非常多。 基因相互作用和基因敲除 WT野生型時間系列實驗,對決定一個系統中發揮作用的gene set非常有用,並且可以確定他們的作用順序?爲了研究單個gene的功能,我們需要進行敲除實驗。在敲除實驗中,這個gene從基因組中被刪除,刪除後的strains使用表達實驗被研究。這樣的實驗允許我們來確定這個敲除gene的下游效應,這可以用來鑑定靶基因並構建基因相互作用網絡。人們做了很多靜止狀態下的gene敲除實驗。近來,時間系列的gene敲除實驗也開始進行。這包括細胞週期double knockouts和壓力情況下的敲除。 發育 理解發育是理解很多gene疾病的關鍵。在分子水平研究時間系列表達實驗可以鑑定那些在發育的不同階段起關鍵role的gene。例如,對果蠅發育80個時間點的研究,鑑定出了很多gene,這些gene控制果蠅發育過程的特殊階段。相似的實驗也用於研究其他器官,包括銀杆線蟲。近來,表達實驗也用來研究人類發育。爲了鑑定參與參與細胞分化形成不同的組織類型的gene,人類胚胎肝細胞也已經開始進行profiled。 感染和其他疾病 如果能鑑定出對某一個感染疾病反應的gene,那麼這對開發針對這種基本的藥物是非常重要的。有人研究了被四種不同的病原菌感染的人細胞的時間系列。另外的例子包括huntington疾病和癌症。正像我們上面說的,表達實驗可以用了回答很多生物學問題,然後,就像我們下面即將要討論的一樣,闡明這些問題需要我們解決很多計算問題。 分析時間系列表達data的計算挑戰 通常,在分析基因表達數據尤其時間系列的時候,需要陳述的生物學和計算問題可以用四個分析水平說明:實驗設計,數據處理,模式識別和網絡。每一個水平都闡釋一個特定的生物學和計算問題,並且也服務於高級分析的預處理過程。這篇綜述的剩下部分主要闡釋這四個水平。對每一個水平來說,我們首先討論設計這個水平的計算挑戰和生物學問題,然後總結試圖解決這些問題的方法。對一些水平來說,我們會討論更多細節。 第二部分:挑戰 樣本量不足,結果不能正確的代表實驗期間gene的活性,關鍵時間可能被忽略。另一方面,樣過多就會多花錢也費時間。因爲很多實驗都是受經費限制的,樣本過多會減少實驗的可持續性,這可能會導致重要gene的丟失,而這些gene可能在後期參與了重要的生理過程。這個問題也有生物學後果,因爲樣本rates依賴於mRNA的轉錄和降解率。另外,樣本量不足可以導致時間成蔟效應。這些效應 或許會干擾我們的推斷隨機關係的能力,因爲那些有狀況依賴性的gene或許看起來是依賴的,假如sampling rate太coarse。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章