gff

gff格式是Sanger研究所定義,是一種簡單的、方便的對於DNA、RNA以及蛋白質序列的特徵進行描述的一種數據格式,比如序列的那裏到那裏是基因,已經成爲序列註釋的通用格式,比如基因組的基因預測,許多軟件都支持輸入或者輸出gff格式。目前格式定義的最新版本是版本3。原始定義見SONG website
gff是存文本文件,由tab鍵隔開的9列組成,以下是各列的說明:
Column 1: “seqid”
序列的編號,編號的有效字符[a-zA-Z0-9.:^*$@!+_?-|]
Column 2: “source”
註釋信息的來源,比如”Genescan”、”Genbank” 等,可以爲空,爲空用”.”點號代替
Column 3: “type”
註釋信息的類型,比如Gene、cDNA、mRNA等,或者是SO對應的編號
Columns 4 & 5: “start” and “end”
開始與結束的位置,注意計數是從1開始的。結束位置不能大於序列的長度
Column 6: “score”
得分,數字,是註釋信息可能性的說明,可以是序列相似性比對時的E-values值或者基因預測是的P-values值。”.”表示爲空。
Column 7: “strand”
序列的方向, +表示正義鏈, -反義鏈 , ? 表示未知.
Column 8: “phase”
僅對註釋類型爲 “CDS”有效,表示起始編碼的位置,有效值爲0、1、2。
Column 9: “attributes”
以多個鍵值對組成的註釋信息描述,鍵與值之間用”=“,不同的鍵值用”;“隔開,一個鍵可以有多個值,不同值用”,“分割。注意如果描述中包括tab鍵以及”,=;”,要用URL轉義規則進行轉義,如tab鍵用 %09代替。鍵是區分大小寫的,以大寫字母開頭的鍵是預先定義好的,在後面可能被其他註釋信息所調用。

預先定義的鍵包括:

  • ID 註釋信息的編號,在一個GFF文件中必須唯一;
  • Name 註釋信息的名稱,可以重複;
  • Alias 別名
  • Parent Indicates 該註釋所屬的註釋,值爲註釋信息的編號,比如外顯子所屬的轉錄組編號,轉錄組所屬的基因的編號。值可以爲多個。
  • Target Indicates: the target of a nucleotide-to-nucleotide or protein-to-nucleotide alignment.
  • Gap:The alignment of the feature to the target if the two are not collinear (e.g. contain gaps).
  • Derives_from:Used to disambiguate the relationship between one feature and another when the relationship is a temporal one rather than a purely structural “part of” one. This is needed for polycistronic genes.
  • Note 備註
  • Dbxref 數據庫索引
  • Ontology_term: A cross reference to an ontology term.

例子:

蛋白質編碼基因的gff格式註釋

蛋白質編碼基因的gff格式註釋

 

##gff-version 3
##sequence-region ctg123 1 1497228
ctg123 . gene 1000 9000 . + . ID=gene00001;Name=EDEN
ctg123 . TF_binding_site 1000 1012 . + . Parent=gene00001
ctg123 . mRNA 1050 9000 . + . ID=mRNA00001;Parent=gene00001
ctg123 . mRNA 1050 9000 . + . ID=mRNA00002;Parent=gene00001 ctg123 . mRNA 1300 9000 . + . ID=mRNA00003;Parent=gene00001 ctg123 . exon 1300 1500 . + . Parent=mRNA00003
ctg123 . exon 1050 1500 . + . Parent=mRNA00001,mRNA00002
ctg123 . exon 3000 3902 . + . Parent=mRNA00001,mRNA00003
ctg123 . exon 5000 5500 . + . Parent=mRNA00001,mRNA00002,mRNA00003
ctg123 . exon 7000 9000 . + . Parent=mRNA00001,mRNA00002,mRNA00003
ctg123 . CDS 1201 1500 . + 0 ID=cds00001;Parent=mRNA00001
ctg123 . CDS 3000 3902 . + 0 ID=cds00001;Parent=mRNA00001
ctg123 . CDS 5000 5500 . + 0 ID=cds00001;Parent=mRNA00001
ctg123 . CDS 7000 7600 . + 0 ID=cds00001;Parent=mRNA00001
ctg123 . CDS 1201 1500 . + 0 ID=cds00002;Parent=mRNA00002
ctg123 . CDS 5000 5500 . + 0 ID=cds00002;Parent=mRNA00002
ctg123 . CDS 7000 7600 . + 0 ID=cds00002;Parent=mRNA00002
ctg123 . CDS 3301 3902 . + 0 ID=cds00003;Parent=mRNA00003
ctg123 . CDS 5000 5500 . + 2 ID=cds00003;Parent=mRNA00003
ctg123 . CDS 7000 7600 . + 2 ID=cds00003;Parent=mRNA00003
ctg123 . CDS 3391 3902 . + 0 ID=cds00004;Parent=mRNA00003
ctg123 . CDS 5000 5500 . + 2 ID=cds00004;Parent=mRNA00003
ctg123 . CDS 7000 7600 . + 2 ID=cds00004;Parent=mRNA00003
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章