RNA測序研究現狀與發展

RNA測序研究現狀與發展 


RNA測序研究現狀與發展

RNA測序(RNA-seq)是最近興起的一種基因表達研究技術,不僅可以對基因表達的情況進行整理、歸類(cataloging),也可以對基因表達情況進行比較。國際RNA測序基因組註釋評價項目協會(international RGASP consortium)最近發表的兩篇論文報道了一場競爭程度相當激烈的、大規模的RNA測序熱潮,各國的科學家們都在尋求最佳的RNA測序分析算法,而且結果也是出人意料的豐富多樣。

通常來說,某一個物種體內所有細胞裏含有的DNA都應該是一模一樣的,只是因爲每一種細胞裏所表達的RNA之間存在差異,才使這些細胞有所區別。諸如“爲什麼腫瘤細胞與正常細胞會不一樣?”這樣的重要問題都可以通過對這些不同細胞裏的RNA進行研究來解決,比如轉錄組學(transcriptome)研究就是一個很好的方法,而這就需要用到RNA測序技術。本期的《自然 方法》(Nature Methods)雜誌隆重推出了國際RNA測序基因組註釋評價項目協會(RNA-seq Genome Annotation Assessment Project, RGASP)發表的兩篇文章,這兩篇文章向我們介紹了RNA測序領域的現狀。

我們往往喜歡將某一個物種的基因組比喻成該物種的“生命祕籍(book of life)”。可爲了解決基因表達問題,我們還需要另外一本祕籍。那就是轉錄組,我們不妨將之比作“生命雜誌(newsstand of life)”,如下圖所示。

RNA測序研究現狀與發展

轉錄組重建工作,就好像是把被碎紙機粉碎的雜誌又一本本地重新拼接起來。

有很多雜誌(即RNA)每一期都“印刷”了很多本,其中有一些可能還有存貨,還有一些留在報刊亭裏,可是有一些卻早就被“賣光”了。在過去,經銷商們只會關注銷量最好的雜誌,而這種雜誌每一本都非常貴,所以你可能也就買得起幾本而已(喻指RNA研究技術和相關產品非常少,而且價格昂貴,科研人員只能對比較重要、熱門的幾種RNA進行研究)。可是現在,由於測序技術,以及相關技術的飛速發展,你可以把報刊亭裏的所有雜誌全都買回去,而且價格還不貴。唯一的區別就是經銷商賣給你的並不是一本本的雜誌,而是先把所有的雜誌全都放進碎紙機裏,然後把一大堆碎紙條賣給你。幸運的是,在這個虛擬的世界裏,還有那麼一大幫熱心的社會改良家來幫忙整理碎紙條(tape-wielding dogooders,這幫人就是我們現實生活中的計算機程序開發人員),幫助我們將碎紙條還原成一本本的雜誌。還有一羣像RGASP這樣的統計狂熱分子也跑來湊熱鬧,他們組織了一場比賽,看看哪些人整理碎紙條的效率最高,準確率最高,能夠又快又好地還原出雜誌的本來面目。這個整理、拼接碎紙條的工作就是“轉錄子重建(transcript reconstruction)”工作,這也是Steijger等人的文章裏最關注的工作。而轉錄子重建工作的重點內容之一就是將RNA測序得到的片段信息與該RNA來源細胞的基因組對應起來,這就是Engström等人的文章裏最關注的工作。

老實說,這場比試的結果有點讓人失望。儘管從事這項工作的工作人員數量很多,重建工作的準確率(通過好幾種方法和多種測序指標評價)卻遠遠不及100%。以我們人類基因組爲例,目前還沒有一種轉錄子重建方法的準確率(以平均敏感度和準確性評價)能夠達到60%。在線蟲和果蠅重建工作中的準確率會稍高一些,但是這兩種生物的基因組要比我們人類的基因組小得多,也要簡單得多。而且這3個物種都是迄今爲止被研究得最充分、最深入的3個物種。有很多物種只是最近才完成基因組測序工作,並沒有太多時間完善這些物種的基因組序列,因此,對這些物種而言,它們的轉錄子重建工作會更加困難,準確性會更低。

從理論上來說,RNA測序其實是一個非常簡單的過程,只需要分離、得到RNA樣本,然後用高通量測序儀對這些RNA樣本進行測序,最後拼接出RNA序列就行了。那麼問題究竟出在哪裏呢?主要存在以下幾個方面的問題:

1. 我們獲得的RNA樣本與我們拿來最比較的基因組可能不是同一個來源的。這一點在人類基因組研究工作中尤爲突出,因爲人類參照基因組就是來自好幾個人的基因組序列;

2. RNA樣本的製備過程可能有問題,其中包含了未經充分處理的RNA,或者其它轉錄子的噪音。而且測序的深度越深,這種問題就表現得越明顯,這也剛好解釋了爲什麼測序深度比較深的時候轉錄子重建工作的準確率會下降;

3. 測序技術本身的問題。絕大部分測序技術都會使用到PCR反應,而我們都知道,PCR反應對GC含量高的序列比較“排斥”,所以這個測序過程本身就會自然而然地“偏向”GC含量低的序列。

分辨出哪些RNA序列是真正的序列,哪些只是噪音信號是一個技術大難題,這可能也是導致衆多算法所得出的結論千差萬別的主要原因。如果在算法中採用了根據之前的數據建立的基因結構模型(model of gene structure),比如Augustus、mGene和Transomics (http://linux5.softberry.com/cgi-bin/berry/programs/Transomics/)等算法的表現要略好於沒有使用這些模型的算法,這是因爲如果使用了基因結構模型,他們還能夠大概知道這些基因是個什麼樣子。所以要開發出更好的算法,首先就需要建立更好的基因結構模型。不過這需要在技術上有更大的發展。更低的差錯率能夠提高比對工作的準確性,而獲得更長的測序結果,比如使用太平洋生物科技公司推出的測序儀(Pacific Bioscience),則可以讓轉錄子重建工作更容易,甚至不需要進行轉錄子重建。

雖然RNA測序分析工作的難度非常大,但是我們可以肯定,這項工作無論是對於分子生物學,還是計算機科學都有非常大的促進和推動作用。實際上,本期雜誌刊出的這兩篇文章都已經有點過時了。基因組學與生物信息學這兩大領域都是瞬息萬變的新興科研領域,也許我們今天剛剛開展的工作,寫下或者看過的論文,到了明天就被淘汰了。對於協會等組織開展的涉及大量數據的工作這一點表現得尤爲突出。眼光挑剔的讀者們看完了整篇文章之後,還是不知道在他們的實際科研工作中究竟應該使用哪種算法時可能就會指出,這些研究的意義究竟何在?不過這類研究工作至少能夠起到以下這3點作用:

1. 這些工作提供了一份寶貴的歷史材料,讓後人可以瞭解RNA測序等工作始於何時;

2. 爲目前的工作提供了一個寶貴的參照系,能夠對最新的技術和進展進行檢驗;

3. 促進了某個項目、協會和組織的建立,推動整個研究領域向前發展。

最後這第3點尤爲重要。如果你有機會接觸、見證,甚至是親自參加一次像RGASP,或者是Assemblathon(http://assemblathon.org/)這樣的工作,你就會被這羣科學家們的創造力、誠實和大度所折服。這些項目並沒有獲得太多特定的資助,他們所使用的數據可能也不會與某個特定的科學問題非常匹配,也常常會有“如果我們有這些數據該多好”之類的感慨,不過他們總是會竭盡所能地做到最好,這不是因爲有人要求他們這麼做,只是因爲他們自己要求自己這麼做。最終的結果可能不會讓圈內人(甚至是圈外人)滿意。Le mieux est l‘ennemi du bien(至真者,真之敵;至善者,善之敵;至美者,美之敵)這句老話同樣適用於基因組學研究工作。

原文檢索:

Ian Korf. Genomics: the state of the art in RNA-seq analysis. Nature Methods, 26 November 2013; doi:10.1038/nmeth.2735

Tamara Steijger, Josep F Abril, Pär G Engström, Felix Kokocinski, Tim J Hubbard, Roderic Guigó, Jennifer Harrow & Paul Bertone. Assessment of transcript reconstruction methods for RNA-seq. Nature Methods, 3 November 2013; doi:10.1038/nmeth.2714


Pär G Engström, Tamara Steijger, Botond Sipos, Gregory R Grant, André Kahles, Gunnar Rätsch, Nick Goldman, Tim J Hubbard, Jennifer Harrow, Roderic Guigó & Paul Bertone. Systematic evaluation of spliced alignment programs for RNA-seq data. Nature Methods, 3 November 2013; doi:10.1038/nmeth.2722

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章