使用Aspera從EBI或NCBI下載基因組數據(轉)

 轉自:http://www.plob.org/2012/07/31/3013.html

做基因組數據分析,可能經常從NCBI的GEO/SRA或者EBI的ENA數據庫下載高通量的數據,動輒幾十G的數據用wget下載實在太糾結,這時就要用到神器-Aspera了。

使用Aspera,最簡單的方法當然就是使用瀏覽器插件Aspera Connect了,跟迅雷、Flashget的用法差不多,直接單擊Aspera支持的下載地址,就自動切換到Aspera的窗口開始下載了。

當我們登錄到自己的服務器終端裏面的時候,可能更希望在終端裏直接下載數據,而不是先把數據下載到自己的硬盤裏,再上傳到服務器,這種情況下帶有窗口界面的Aspera Connect就無法使用了嗎?

當然可以,Aspera Connect安裝包裏內置了Aspera的命令行工具,這裏對其安裝和使用方法簡要介紹一下:

安裝

首先,到aspera網站下載你的操作系統對應的aspera connect。(如果選Linux,下載以後會是一個幾M大,內嵌二進制代碼的shell腳本。。) 。不需要root或者sudo權限,直接安裝之:

$ sh aspera-connect-2.4.7.37118-linux-64.sh

安裝好以後,會在HOME目錄下新建一個叫.aspera的目錄,有兩個文件比較重要:

一個是ascp的可執行文件:

~/.aspera/connect/bin/ascp

另一個ascp的密鑰文件:

~/.aspera/connect/etc/asperaweb_id_dsa.putty

建議將密鑰備份到HOME目錄下方便使用:

$ cp ~/.aspera/connect/etc/asperaweb_id_dsa.putty ~/

再把aspera-license複製到系統目錄

~/.aspera/connect/etc$ sudo cp aspera-license /usr/local/bin/

再把ascp可執行文件的路徑加入PATH變量中,或者將其拷貝到當前目錄。

使用

執行以下兩條命令(注意最後要加點號“.”,表示當前目錄)

EBI下載:

$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

NCBI下載:

$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/sra/sra-instant/reads/ByRun/litesra/SRR/SRR096/SRR096072/SRR096072.lite.sra .

這個時候的速度相比於wget,應該已經很快了,大約能達到9Mb/s以上,如果還嫌慢,可以在-i 參數的前面添加幾項設置,像這樣:

ascp -QT -l 100M -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/ERA012/ERA012008/sff/library08_GJ6U61T06.sff

這樣可以將速度提高到20Mb/s左右,偶爾能達到100Mb/s。

ascp下載地址的獲取

EBI上的SRR346368這套數據爲例。首先到EBI頁面裏,找到你想要下載的文件,將指針移到這個文件的”ftp”這一列,即可看到其ftp地址,例如: ftp://ftp.sra.ebi.ac.uk/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz,
然後呢:將 ftp://ftp.sra.ebi.ac.uk 換成 [email protected]即可:

$ ascp -i ~/asperaweb_id_dsa.putty [email protected]:/vol1/fastq/SRR346/SRR346368/SRR346368.fastq.gz .

NCBI的SRA數據庫也是同樣的方法,即可獲取其ascp下載地址。

小技巧

如果嫌每次都輸入密碼太麻煩,可以在命令行或.profile中設置ASPERA_SCP_PASS這個環境變量:
export ASPERA_SCP_PASS=你的aspera密碼
即可。

更多的說明

請參見官方的SRA下載手冊:

NCBIhttp://www.ncbi.nlm.nih.gov/books/NBK47540/

EBIhttp://www.ebi.ac.uk/ena/about/sra_data_download

附上自己下載數據的小心得,我本來打算從GEO下載數據,但是下載下來的都是SRA格式的,於是直接去EBI下載fastq的數據,雖然前者解壓以後就能得到fastq文件,但是後者能剩下一些步驟,原來的wget在服務器上下載的速度最多1m/s,採用aspera以後直接飆升到9.7m/s,效果很是不錯,還有如果apresa沒有安裝好的話就要進行下載,就會提示相關文件找不到(一般是要輸入密匙,這個明顯是多餘的,因爲原來就有密匙文件,建議把密匙文件保存在用戶目錄),其他沒什麼了,祝好運

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章