NCBI作爲一個巨大的bioinformatics數據庫,除了提供B/S界面的查詢外,還提供了許多工具查詢和下載DB中的數據。本文介紹其中最強大的一種Entrez Direct(Edirect),這是NCBI官方提供的UNIX平臺DB數據檢索工具(注意,UNIX平臺,不是Linux。我曾經在centos上裝過,只能實現輸出xml格式結果的功能,不能將結果轉換成表格格式,因爲perl中xtract模塊用不了)。以下是使用方法:
一、環境構建。
1.UNIX和Perl。
要找一臺UNIX的機器不容易。個人推薦使用Cygwin提供的WIndows PC版UNIX模擬器來實現。Cygwin的安裝和配置可百度,網上很多。需要注意的是1.一定要在安裝時選擇必要的packages,包括Devel和Perl中所有的包(將這兩個Categroy從Default點爲Install),這樣UNIX模擬器在安裝時會自動安裝好這些組件。特別是Perl,Edirect是基於Perl語言運行的。還有一點是選擇鏡像,儘量選擇位於大陸的mirror作爲安裝源。安裝完畢後,要將Cgywin的bin文件夾加入到windows環境變量的PATH中。
2. 安裝Edirect。
安裝Edirect前,首先確保UNIX系統中perl和其組件下載器CPAN都安裝好了。在命令行輸入perl -v,如無報錯,則說明perl安裝好了。輸入perl -MCPAN -e shell,如果進入了cpan的提示符,則cpan可用,輸入exit退出到unix提示符下。
注:我原以爲Edirect只能在UNIX系統下安裝,最近在CentOS7環境下用官方推薦的安裝方法也安裝上了Edirect,可能是因爲新的環境下安裝了Bioperl的Bio::SeqIO模塊才成功的,究竟是不是這樣希望有興趣的朋友們仔細研究下。
以下是NCBI官方給出的Edirect安裝代碼:
cd ~ perl -MNet::FTP -e \ '$ftp = new Net::FTP("ftp.ncbi.nlm.nih.gov", Passive => 1); $ftp->login; $ftp->binary; $ftp->get("/entrez/entrezdirect/edirect.zip");' #通過perl從NCBI的ftp服務器下載edirect.zip文件夾 unzip -u -q edirect.zip rm edirect.zip export PATH=$PATH:$HOME/edirect #將edirect路徑加到UNIX環境變量中 ./edirect/setup.sh #執行setup.sh腳本安裝Edirect。安裝過程中如出現以下提示說明有些perl組件沒有裝上,不過不要緊,據我觀察edirect也能正常用。
永佳@zhanyongjia ~
$ ./edirect/setup.sh
Trying to establish local installations of any missing Perl modules
(as logged in /home/永佳/edirect/setup-deps.log).
Please be patient, as this step may take a little while.
Unable to download a prebuilt xtract executable; attempting to
build one from xtract.go. A Perl fallback is also available, and
will be used if necessary, so please disregard any errors below.
./edirect/setup.sh:行46: go: 未找到命令
ENTREZ DIRECT HAS BEEN SUCCESSFULLY INSTALLED AND CONFIGURED
安裝完成後還有一件事,給edirect文件夾下所有目錄和文件777權限,chmod -R 777 ./edirect
至此,Edirect安裝完成,查閱NCBI提供的教程學習。http://www.ncbi.nlm.nih.gov/books/NBK179288/#chapter6.Release_Notes