必備轉錄組表達分析知識圖譜

說明:因爲平臺限制和平臺廣告等原因,今後的文章將不在簡書更新,請移步並訂閱個人博客
說明:因爲平臺限制和平臺廣告等原因,今後的文章將不在簡書更新,請移步並訂閱個人博客
說明:因爲平臺限制和平臺廣告等原因,今後的文章將不在簡書更新,請移步並訂閱個人博客


文章信息

Van den Berge, Koen, Katharina M. Hembach, Charlotte Soneson, Simone Tiberi, Lieven Clement, Michael I. Love, Rob Patro, and Mark D. Robinson. 2019. “RNA Sequencing Data: Hitchhiker’s Guide to Expression Analysis.” Annual Review of Biomedical Data Science 2 (1): 139–73. https://doi.org/10.1146/annurev-biodatasci-072018-021255.Annual Review 系列雜誌的綜述應該說是綜述界的老大哥。最近在 Annual Review of Biomedical Data Science 發表了「另」一篇 RNA-Seq 相關的重磅綜述。之所以說是另一篇,因爲同期在 Nature Reviews Genetics 發表過一篇看名字就非常霸氣的綜述:RNA sequencing: the teenage years 。

關於 RNA Sequencing Data: Hitchhiker's Guide to Expression Analysis 這篇綜述,它重點關注在** RNA-seq 數據的表達分析方法因此適合用來做轉錄組數據分析能力的自我檢測和學習路徑。這篇文章從轉錄組數據的整體介紹開始,從比對定量、差異表達基礎、差異分析種類,單細胞轉錄組和長讀數轉錄組幾個層面展開,重點在比對定量、差異表達基礎、差異分析種類這三部分。作者根據分析步驟介紹了對應的大量分析工具和其使用的計算模型和優勢。本文不會對文章進行翻譯,只是重點指出我讀後比較關注的一些細節。最後我也會按照綜述的主線梳理出主要內容,理出一幅轉錄組表達分析的知識地圖。**

整體介紹

下圖是一個轉錄組試驗的標準試驗流程。

在建庫的過程中,常見文庫形式包括單端和單端測序,同時還有非鏈特異性和鏈特異性測序。在實驗設計方面,有兩個比較重要的因素:重複數量和測序深度。如下圖所示,最近若干年來,大多數轉錄組測序的數據 reads 數量都是從 10 到 100M 之間,而樣本數量基本上就是每個條件三個重複,很多項目的樣本數量在 8 個(中位數)左右。

通常認爲,增加測序深度可以提高後期分析的表現。不過,其實非常大的一部分 reads 都來自少數一些表達量很高的基因。具體到統計數字上,超過 80%的 reads 都來自 10%表達量最高的基因,如下圖所示。因此,增加 reads 其實只是非常有限的增加了低表達基因的覆蓋率。在檢查差異表達基因的統計效力上並沒有非常明顯的提升。因此,增加測序深度不如多增加幾個重複。有數據表明,如果想要鑑定低 fold change 的基因,最好能夠做到 6 個重複。

轉錄組測序在應用層面可以進行基因註釋,這裏的註釋包括各種各樣的轉錄相關事件,例如 exon skipping, alternative 3' acceptor, 5' donor
sites 以及 intron retention 等等。在基因調控方面,轉錄組數據可以在各種各樣的條件下進行各種各樣層面的比較,例如基因、轉錄本和外顯子。當然,還有單細胞轉錄組的一系列應用場景等等。

關於定量和比對

轉錄組得到的測序數據通常被稱爲 junction-spanning reads, 目前針對這樣的 reads 有兩種最主要的比對思路,一種是使用 spliced alignment 的方法比對到參考基因組,另一種是使用 direct alignment 的方法直接比對到轉錄組上。往參考基因組比對的方法對應的工具有很多,最早從 DNA 比對進化來的工具例如 bowtie 等,後期發展出來的 STAR, HISAT 和 Subread 以及 GMAP。這種類型的比對一個關鍵點是對於 splice junctions 的識別。比對到轉錄組,主要挑戰是關於 related isoforms 轉錄本的區分,這個問題可能會導致大量 multimapping 的情況發生。例如一個基因有三個轉錄本,其中一個外顯子序列可能在三個轉錄本中都出現。同時,比對到參考轉錄組也不能找到 find novel splicing 和 expression pattern。因此,到底選擇哪種比對方式取決於自己的後續分析需求。關於定量,常見的有基於基因的定量和基因轉錄本的定量。每種定量方式都有基於不同模型的若干種方法,隨着分析的逐漸深入,越來越多的分析從基於基因定量轉換爲基於轉錄本定量。

差異分析基礎

下圖是一個常規的差異分析步驟。

各種差異表達

和定量的方式相對應,差異表達的分析角度其實也有很多種。除了常見的差異基因表達之外,還有差異表達的轉錄本,以及在一個基因內部不同轉錄本的使用情況,在一些情況下,即便一個基因在兩種不同的條件下沒有表達上的明顯差異,但是可能存在不同轉錄本的表達變化。下圖是一個比較直觀的說明。

更多細節可以閱讀綜述原文,送上根據綜述這裏的知識圖譜

表達分析知識圖譜

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章