這是2012 年的3月份的一篇nature protocol ,下面是我作爲一個RNA-seq 方面的菜鳥在根據這個protocol 跑流程時遇到的問題及解決的方法,現總結如下:
一、果蠅全基因組下載Fruit fly iGenome packages (Ensembl build; download via the TopHat and Cufflinks websites, along with packages for many other organisms; )
注意:Drosophila_melanogaster\Ensembl\BDGP5.25下面有三個文件夾 分別是 Annotation、GenomeStudio、Sequence 其中Annotation/Genes/genes.gtf中是註釋文件 ,在
Sequence/BowtieIndex/genome.*是用Bowtie 建好的索引文件,以ebwt 結尾的文件,如果沒有,就要自己用bowtie -build 命令來建立索引文件。
二、Downloading sequencing data:Raw sequencing reads, aligned reads, assembled transfrags and differential analysis are all available through the Gene Expression Omnibus at accession GSE32038.
GEO 數據庫的有關介紹:Gene Expression Omnibus(GEO)數據庫
三、軟件的下載安裝,這裏的軟件大都可以直接下載解壓後,把其中的文件copy 到bin 目錄就好了,當然你也可以選擇自己重新編譯,但是會遇到各種問題(我沒嘗試過),Tophat 下載地址,cufflinks下載地址,例如cufflinks 下載解壓後 把下面這四個文件copy 到bin目錄下 。
四、Map the reads for each sample to the reference genome
說明: 1、這幾條命令中每條包含三個文件,gtf 文件,索引文件,和sequence(.fq) 文件
2、這裏的genome 就是上面說的Bowtie建立的索引文件
3、tophat參數詳解
4、最後三條命令出錯啦,用綠色把1改成2的部分
5、每個文件的路徑,如果不確定的話就用絕對路徑,這裏的這種寫法是這三個文件在同一個目錄下
五、
六、
七、
這一步容易輸出警告。
八、
這一步也容易出現問題,在SEQanswers上有詳細解答,詳見TopHat protocol error at cuffdiff。