然後就是啓動…………久違的界面出現了……
以下內容轉自:http://hi.baidu.com/insidi/blog/item/bb21a489a4dd76a20e2444ee.html
1. 準備工作
? 下載Mysql數據庫並安裝:http://www.mysql.com/downloads/mysql/。下個Essentials版本的就可以了。然後裝上。(出問題自己解決)
? 下載所需的數據文件:
http://archive.geneontology.org/latest-full/go_201011-assocdb-data.gz (下載最新的)
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz
ftp://ftp.ncbi.nlm.nih.gov/gene/DATA/gene2accession.gz
ftp://ftp.pir.georgetown.edu/databases/idmapping/idmapping.tb.gz
以上數據均下載最新的。
? 下載local_b2g_db_tutorial_0609.zip. 在blast2go的網站上下載。
2. 本地化構建? 更改數據存放目錄
如果默認安裝Mysql數據庫的話,是裝在C盤的,但是一般C盤的空間比較小,而要導入的數據很大,所以要改變一下Mysql 的數據存儲目錄。
查看路徑:mysql > show variables like “%dir%”; 在這個命令的結果中會看到datadir的路徑,下邊就是將這個路徑改到別的位置。
改變路徑:
停止mysql服務:net stop mysql; 更改my.ini中的datadir信息,並將原來的data目錄copy到更改以後的路徑中;重啓服務:net start mysql.
? 創建數據庫和表
在local_b2g_db_tutorial_0609 中有個b2g_db.sql文件,該文件是用來構建b2g數據庫和建立相應表的文件,可以直接導入到mysql 中。
原始的這個文件有幾個錯誤,要改一下:
1) 原始第9行:GRANT * , 改爲 GRANT ALL.
2) 原始第10行:添加 use b2g;
3) 原始第26行:’description’ text NOT NULL default ‘’, 將default ‘’去掉。
這樣,這個文件就可以直接導入了。
導入:sh> mysql –uroot –p < c:/b2g_db.sql
這樣在原來的mysql數據庫中就多了一個b2g的數據庫,同時這個庫中還有三個表。自己查看一下,同時查看一下現在的數據存放目錄是否改變了。
? 導入數據:
下邊要導入已經下載好的4個數據文件。先都解壓了,數據還是比較大的。
1) 導入go_<YYYYMM>-assocdb-data數據(壓縮包1.18G,解壓後7.45G)
進入mysql:
sh> mysql b2g –s –b –uroot –p
-s : silent mode: produce less out and speed up
-b : suppress the beep when errors occur
然後 mysql> source c:/go_****-assocdb-data
時間很長,等吧。
? 導入gene2accession
mysql> load data local infile “path/gene2accession” into table gene2accession;
OK, 無錯誤
? 導入gene_info
Mysql> load data local infile “path/geneinfo” into table gene_info;
OK,無錯誤
? 導入PIR file(idmapping)
這個需要通過blast2go界面進行導入。Blast2go下的Tools-> DB configuration, 改變db-host, name, password,一般變爲localhost, root , ***,然後選擇 tools-> import PIR mapping to a local B2G-DB,導入。
3. 總結? 這裏導入的數據僅僅解決了mapping的步驟,其他的步驟還需要通過網絡,並沒有本地化,mapping的速度是最慢的,本地化後會快很多。
? 檢測是否構建成功:在blast2go的主界面中點擊綠色的箭頭,出現圖形說明數據庫已經建好了。
4. 可能出現的錯誤? Network Connection Problem Premature EOF.過早結束。這個錯誤可能是由於殺毒軟件造成的,關掉殺毒軟件試試。不想關的話,放寬一下殺毒軟件的過濾條件試試。
? Blast2go的blast步驟需要多作幾次,直到最後兩次的miss blast一樣爲止,一般不存在blast結果的序列還是很少的。如果你沒有大型的服務器,個人覺得通過NCBI blast反而比自己本地blast要快。
? 富集分析:有時不報錯,但是長時間不出結果,可能是殺毒軟件的問題,關掉就很快出結果了。如果P值全爲1,也這麼做,試試看了。
? Could not create the java virtual machine的問題,可能是啓動的blast2go需要的內存太多,設定一個小的內存使用量就可以了。
? Blast2go 會自動覆蓋重複記錄。會用後邊的記錄覆蓋前邊的記錄。如果前面導入的結果爲20個hit,後面相同記錄爲19個hit,那麼最終的結果爲19個hit.所以再比對nr和swissprot的時候,應該分開計算結果,然後再合併。
? Blast2go導入本地blast結果文件,受到序列條目和文件大小的限制,3000條序列一個文件是可以的(測試過),佔內存很嚴重。文件大小在100M左右是可以的。
? 用獨立的blast程序比對swissprot數據庫出現問題,xml結果中hit-id不正確,導致blast2go無法識別,可能是formatdb時出現了錯誤,自己檢查一下。
? 一般GO 分類中,biological process的節點很多,在blast2go中,這步出圖的時候總是容易卡死,需要改變一下blast2go配置文件中圖形節點的最大值,改大點應該可以出來。
5. 建議? 富集分析做barchart的時候,用p-value比較好,可以在圖形中顯示over 和under。不推薦用FDR。
? Blast2go出來的分類餅圖是不包括unknown類別的,個人建議用blast2go出來的數據重新畫一個分佈餅圖,將unknown類放進去。
? 做blast的時候HSP的長度最好設定一下。