fasta和fastq文件格式詳解

1. fasta格式

fasta格式是一種非常簡單的儲存序列的格式(主要是把序列儲存到數據庫中的一種形式),可以儲存核酸序列(RNA/DNA)和氨基酸序列(AA),主要包括2個部分。
1)以‘>’開始的一行主要儲存“序列的描述信息”
2)序列信息(這裏儲存的是氨基酸序列信息)

舉例人類血紅蛋白α亞基的氨基酸序列:

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

舉例人類血紅蛋白a亞基對應的mRNA序列:

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTGG

這條序列來自於NCBI的RefSeq數據庫,所有來自於NCBI的序列都有一個gi號,是具有唯一性的數據庫流水號,gb|AF349571.1是genebank編號的信息,後面是序列信息的詳細描述(Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
RefSeq(reference sequence database)基因參考序列數據庫:是美國國家醫學圖書管下屬國家生物技術信息中心開發的基因參考序列數據庫,爲多種生物提供序列的數據信息及相關資料,用於醫學、基因功能和基因功能比較研究。

2. fastq格式

下面是illumina平臺的一條read信息:

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
  • 第一行:記錄測序時,序列的座標信息
  • 第二行:測序得到的序列信息(分ATCGN5種情況,N代表不確定鹼基類型)
  • 第三行:以“+”開始,可以儲存一些附加信息
  • 第四行:以ASCII碼形式儲存鹼基的質量信息(與第二行的鹼基序列一一對應)

如何理解第四行的鹼基質量信息?
測序儀在鹼基讀取過程中,熒光信號轉化爲鹼基類型時,會不可避免得存在一定程度誤判,因此每一個base calling都會伴隨一個測序錯誤率P產生,用來判斷該base的可信程度。爲了fastq文件中,鹼基質量值能和第二行的鹼基序列信息一一對應,P必須以一個字符的形式存儲。所以有了以下3步轉換:

  1. P轉換爲Q
    Q=-10*log10(P)(P以10爲底取對數,再乘以-10)
    當P=0.001時,Q=30(代表該鹼基測序錯誤的機率爲千分之一)
  2. Q轉換爲Phred值
    Phred=Q+C(C同測序儀和版本有關)
    例如:
  • illumina (1.3+) C=64
  • illumina (1.5+) C=64
  • illumina (1.8+) C=33
  1. 最後獲得Phred值對應的ASCII字符
    ASCII碼對照表鏈接:https://tool.oschina.net/commons?type=4
    就是我們看到的第四行 FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,(C=33時,?對應Q=30)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章