gff格式是Sanger研究所定義,是一種簡單的、方便的對於DNA、RNA以及蛋白質序列的特徵進行描述的一種數據格式,比如序列的那裏到那裏是基因,已經成爲序列註釋的通用格式,比如基因組的基因預測,許多軟件都支持輸入或者輸出gff格式。目前格式定義的最新版本是版本3。原始定義見SONG website
gff是存文本文件,由tab鍵隔開的9列組成,以下是各列的說明:
Column 1: “seqid”
序列的編號,編號的有效字符[a-zA-Z0-9.:^*$@!+_?-|]
Column 2: “source”
註釋信息的來源,比如”Genescan”、”Genbank” 等,可以爲空,爲空用”.”點號代替
Column 3: “type”
註釋信息的類型,比如Gene、cDNA、mRNA等,或者是SO對應的編號
Columns 4 & 5: “start” and “end”
開始與結束的位置,注意計數是從1開始的。結束位置不能大於序列的長度
Column 6: “score”
得分,數字,是註釋信息可能性的說明,可以是序列相似性比對時的E-values值或者基因預測是的P-values值。”.”表示爲空。
Column 7: “strand”
序列的方向, +表示正義鏈, -反義鏈 , ? 表示未知.
Column 8: “phase”
僅對註釋類型爲 “CDS”有效,表示起始編碼的位置,有效值爲0、1、2。
Column 9: “attributes”
以多個鍵值對組成的註釋信息描述,鍵與值之間用”=“,不同的鍵值用”;“隔開,一個鍵可以有多個值,不同值用”,“分割。注意如果描述中包括tab鍵以及”,=;”,要用URL轉義規則進行轉義,如tab鍵用 %09代替。鍵是區分大小寫的,以大寫字母開頭的鍵是預先定義好的,在後面可能被其他註釋信息所調用。
預先定義的鍵包括:
- ID 註釋信息的編號,在一個GFF文件中必須唯一;
- Name 註釋信息的名稱,可以重複;
- Alias 別名
- Parent Indicates 該註釋所屬的註釋,值爲註釋信息的編號,比如外顯子所屬的轉錄組編號,轉錄組所屬的基因的編號。值可以爲多個。
- Target Indicates: the target of a nucleotide-to-nucleotide or protein-to-nucleotide alignment.
- Gap:The alignment of the feature to the target if the two are not collinear (e.g. contain gaps).
- Derives_from:Used to disambiguate the relationship between one feature and another when the relationship is a temporal one rather than a purely structural “part of” one. This is needed for polycistronic genes.
- Note 備註
- Dbxref 數據庫索引
- Ontology_term: A cross reference to an ontology term.
例子:
##gff-version 3 ##sequence-region ctg123 1 1497228 ctg123 . gene 1000 9000 . + . ID=gene00001;Name=EDEN ctg123 . TF_binding_site 1000 1012 . + . Parent=gene00001 ctg123 . mRNA 1050 9000 . + . ID=mRNA00001;Parent=gene00001 ctg123 . mRNA 1050 9000 . + . ID=mRNA00002;Parent=gene00001 ctg123 . mRNA 1300 9000 . + . ID=mRNA00003;Parent=gene00001 ctg123 . exon 1300 1500 . + . Parent=mRNA00003 ctg123 . exon 1050 1500 . + . Parent=mRNA00001,mRNA00002 ctg123 . exon 3000 3902 . + . Parent=mRNA00001,mRNA00003 ctg123 . exon 5000 5500 . + . Parent=mRNA00001,mRNA00002,mRNA00003 ctg123 . exon 7000 9000 . + . Parent=mRNA00001,mRNA00002,mRNA00003 ctg123 . CDS 1201 1500 . + 0 ID=cds00001;Parent=mRNA00001 ctg123 . CDS 3000 3902 . + 0 ID=cds00001;Parent=mRNA00001 ctg123 . CDS 5000 5500 . + 0 ID=cds00001;Parent=mRNA00001 ctg123 . CDS 7000 7600 . + 0 ID=cds00001;Parent=mRNA00001 ctg123 . CDS 1201 1500 . + 0 ID=cds00002;Parent=mRNA00002 ctg123 . CDS 5000 5500 . + 0 ID=cds00002;Parent=mRNA00002 ctg123 . CDS 7000 7600 . + 0 ID=cds00002;Parent=mRNA00002 ctg123 . CDS 3301 3902 . + 0 ID=cds00003;Parent=mRNA00003 ctg123 . CDS 5000 5500 . + 2 ID=cds00003;Parent=mRNA00003 ctg123 . CDS 7000 7600 . + 2 ID=cds00003;Parent=mRNA00003 ctg123 . CDS 3391 3902 . + 0 ID=cds00004;Parent=mRNA00003 ctg123 . CDS 5000 5500 . + 2 ID=cds00004;Parent=mRNA00003 ctg123 . CDS 7000 7600 . + 2 ID=cds00004;Parent=mRNA00003