RNA-seq 流程、問題總結(一)

這是2012 年的3月份的一篇nature protocol  ,下面是我作爲一個RNA-seq 方面的菜鳥在根據這個protocol 跑流程時遇到的問題及解決的方法,現總結如下:

一、果蠅全基因組下載Fruit fly iGenome packages (Ensembl build; download via the TopHat and Cufflinks websites, along with packages for many other organisms; )

注意:Drosophila_melanogaster\Ensembl\BDGP5.25下面有三個文件夾 分別是 Annotation、GenomeStudio、Sequence 其中Annotation/Genes/genes.gtf中是註釋文件 ,在

           Sequence/BowtieIndex/genome.*是用Bowtie 建好的索引文件,以ebwt 結尾的文件,如果沒有,就要自己用bowtie -build 命令來建立索引文件。

二、Downloading sequencing data:Raw sequencing reads, aligned reads, assembled transfrags and differential analysis are all available through the Gene Expression Omnibus at accession GSE32038.

    GEO 數據庫的有關介紹:Gene Expression Omnibus(GEO)數據庫 

三、軟件的下載安裝,這裏的軟件大都可以直接下載解壓後,把其中的文件copy 到bin 目錄就好了,當然你也可以選擇自己重新編譯,但是會遇到各種問題(我沒嘗試過),Tophat 下載地址cufflinks下載地址,例如cufflinks 下載解壓後 把下面這四個文件copy 到bin目錄下 。

  四、Map the reads for each sample to the reference genome  

     

     說明: 1、這幾條命令中每條包含三個文件,gtf 文件,索引文件,和sequence(.fq) 文件

                  2、這裏的genome 就是上面說的Bowtie建立的索引文件

                  3、tophat參數詳解          

                  4、最後三條命令出錯啦,用綠色把1改成2的部分

                  5、每個文件的路徑,如果不確定的話就用絕對路徑,這裏的這種寫法是這三個文件在同一個目錄下

五、     

    

六、

七、

     這一步容易輸出警告

八、

這一步也容易出現問題,在SEQanswers上有詳細解答,詳見TopHat protocol error at cuffdiff

發佈了27 篇原創文章 · 獲贊 31 · 訪問量 37萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章