NCBI中Entrez Direct的使用

NCBI作爲一個巨大的bioinformatics數據庫,除了提供B/S界面的查詢外,還提供了許多工具查詢和下載DB中的數據。本文介紹其中最強大的一種Entrez Direct(Edirect),這是NCBI官方提供的UNIX平臺DB數據檢索工具(注意,UNIX平臺,不是Linux。我曾經在centos上裝過,只能實現輸出xml格式結果的功能,不能將結果轉換成表格格式,因爲perl中xtract模塊用不了)。以下是使用方法:


一、環境構建。


1.UNIX和Perl。

      要找一臺UNIX的機器不容易。個人推薦使用Cygwin提供的WIndows PC版UNIX模擬器來實現。Cygwin的安裝和配置可百度,網上很多。需要注意的是1.一定要在安裝時選擇必要的packages,包括Devel和Perl中所有的包(將這兩個Categroy從Default點爲Install),這樣UNIX模擬器在安裝時會自動安裝好這些組件。特別是Perl,Edirect是基於Perl語言運行的。還有一點是選擇鏡像,儘量選擇位於大陸的mirror作爲安裝源。安裝完畢後,要將Cgywin的bin文件夾加入到windows環境變量的PATH中。


2. 安裝Edirect。

    安裝Edirect前,首先確保UNIX系統中perl和其組件下載器CPAN都安裝好了。在命令行輸入perl -v,如無報錯,則說明perl安裝好了。輸入perl -MCPAN -e shell,如果進入了cpan的提示符,則cpan可用,輸入exit退出到unix提示符下。

注:我原以爲Edirect只能在UNIX系統下安裝,最近在CentOS7環境下用官方推薦的安裝方法也安裝上了Edirect,可能是因爲新的環境下安裝了Bioperl的Bio::SeqIO模塊才成功的,究竟是不是這樣希望有興趣的朋友們仔細研究下。

以下是NCBI官方給出的Edirect安裝代碼:


 cd ~
  perl -MNet::FTP -e \
    '$ftp = new Net::FTP("ftp.ncbi.nlm.nih.gov", Passive => 1); $ftp->login;
     $ftp->binary; $ftp->get("/entrez/entrezdirect/edirect.zip");' #通過perl從NCBI的ftp服務器下載edirect.zip文件夾
  unzip -u -q edirect.zip
  rm edirect.zip
  export PATH=$PATH:$HOME/edirect #將edirect路徑加到UNIX環境變量中
  ./edirect/setup.sh #執行setup.sh腳本安裝Edirect。

安裝過程中如出現以下提示說明有些perl組件沒有裝上,不過不要緊,據我觀察edirect也能正常用。

永佳@zhanyongjia ~
$ ./edirect/setup.sh

Trying to establish local installations of any missing Perl modules
(as logged in /home/永佳/edirect/setup-deps.log).
Please be patient, as this step may take a little while.
Unable to download a prebuilt xtract executable; attempting to
build one from xtract.go.  A Perl fallback is also available, and
will be used if necessary, so please disregard any errors below.
./edirect/setup.sh:行46: go: 未找到命令

ENTREZ DIRECT HAS BEEN SUCCESSFULLY INSTALLED AND CONFIGURED

安裝完成後還有一件事,給edirect文件夾下所有目錄和文件777權限,chmod -R 777 ./edirect

至此,Edirect安裝完成,查閱NCBI提供的教程學習。http://www.ncbi.nlm.nih.gov/books/NBK179288/#chapter6.Release_Notes


發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章