fasta和fastq文件格式详解

1. fasta格式

fasta格式是一种非常简单的储存序列的格式(主要是把序列储存到数据库中的一种形式),可以储存核酸序列(RNA/DNA)和氨基酸序列(AA),主要包括2个部分。
1)以‘>’开始的一行主要储存“序列的描述信息”
2)序列信息(这里储存的是氨基酸序列信息)

举例人类血红蛋白α亚基的氨基酸序列:

>sp|P69905|HBA_HUMAN Hemoglobin subunit alpha OS=Homo sapiens GN=HBA1 
MVLSPADKTNVKAAWGKVGAHAGEYGAEALERMFLSFPTTKTYFPHFDLSHGSAQVKGHGKKVADALTNAVAHVDDMPNALSALSDLHAHKLRVDPVNFKLLSHCLLVTLAAHLPAEFTPAVHASLDKFLASVSTVLTSKYR

举例人类血红蛋白a亚基对应的mRNA序列:

>gi|13650073|gb|AF349571.1| Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
CCCACAGACTCAGAGAGAACCCACCATGGTGCTGTCTCCTGACGACAAGACCAACGTCAAGGCCGCCTGGGGTAAGGTCGGCGCGCACGCTGGCGAGTATGGTGCGGAGGCCCTGGAGAGGATGTTCCTGTCCTTCCCCACCACCAAGACCTACTTCCCGCACTTCGACCTGAGCCACGGCTCTGCCCAGGTTAAGGGCCACGGCAAGAAGGTGGCCGACGCGCTGACCAACGCCGTGGCGCACGTGGACGACATGCCCAACGCGCTGTCCGCCCTGAGCGACCTGCACGCGCACAAGCTTCGGGTGGACCCGGTCAACTTCAAGCTCCTAAGCCACTGCCTGCTGGTGACCCTGGCCGCCCACCTCCCCGCCGAGTTCACCCCTGCGGTGCACGCCTCCCTGGACAAGTTCCTGGCTTCTGTGAGCACCGTGCTGACCTCCAAATACCGTTAAGCTGGAGCCTCGGTGGCCATGCTTCTTGCCCCTTTGG

这条序列来自于NCBI的RefSeq数据库,所有来自于NCBI的序列都有一个gi号,是具有唯一性的数据库流水号,gb|AF349571.1是genebank编号的信息,后面是序列信息的详细描述(Homo sapiens hemoglobin alpha-1 globin chain (HBA1) mRNA, complete cds
RefSeq(reference sequence database)基因参考序列数据库:是美国国家医学图书管下属国家生物技术信息中心开发的基因参考序列数据库,为多种生物提供序列的数据信息及相关资料,用于医学、基因功能和基因功能比较研究。

2. fastq格式

下面是illumina平台的一条read信息:

@ST-E00126:128:HJFLHCCXX:2:1101:7405:1133
TTGCAAAAAATTTCTCTCATTCTGTAGGTTGCCTGTTCACTCTGATGATAGTTTGTTTTGG
+
FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,
  • 第一行:记录测序时,序列的座标信息
  • 第二行:测序得到的序列信息(分ATCGN5种情况,N代表不确定碱基类型)
  • 第三行:以“+”开始,可以储存一些附加信息
  • 第四行:以ASCII码形式储存碱基的质量信息(与第二行的碱基序列一一对应)

如何理解第四行的碱基质量信息?
测序仪在碱基读取过程中,荧光信号转化为碱基类型时,会不可避免得存在一定程度误判,因此每一个base calling都会伴随一个测序错误率P产生,用来判断该base的可信程度。为了fastq文件中,碱基质量值能和第二行的碱基序列信息一一对应,P必须以一个字符的形式存储。所以有了以下3步转换:

  1. P转换为Q
    Q=-10*log10(P)(P以10为底取对数,再乘以-10)
    当P=0.001时,Q=30(代表该碱基测序错误的机率为千分之一)
  2. Q转换为Phred值
    Phred=Q+C(C同测序仪和版本有关)
    例如:
  • illumina (1.3+) C=64
  • illumina (1.5+) C=64
  • illumina (1.8+) C=33
  1. 最后获得Phred值对应的ASCII字符
    ASCII码对照表链接:https://tool.oschina.net/commons?type=4
    就是我们看到的第四行 FFKKKFKKFKF<KK<F,AFKKKKK7FFK77<FKK,<F7K,,7AF<FF7FKK7AA,7<FA,,(C=33时,?对应Q=30)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章