fast_qc對測序數據的質控

fast_qc是一款用於測序數據質量分析的java軟件,它的使用非常簡單,這篇文章只簡單記錄fast_qc的使用方法,以及如何讀懂fast_qc的圖形化報告。

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1...seqfileN
-o --outdir  #fast_qc生成的報告文件的儲存路徑
--extract  #fast_qc在運行時默認會將生成的所有文件打包到1個壓縮文件裏(使用該參數便不再打包)
-t --threads #選擇程序運行的線程數(每個線程佔用250M內存)
-f  #強制指定輸入文件格式(可以是fastq or bam or sam)
-c --contaminants #污染物選項,輸入爲文件(文件格式"Name\tSequences",fastqc計算時會評估污染的情況並統計分析)
-a --adapter #接頭選項,輸入爲文件(文件格式"Name\tSequences",儲存adapter序列信息,如果沒有使用該選項,fastqc會默認使用通用引物序列評估adapter污染)

1. Basic statistics

有效信息:

  • 總序列數量
  • 被標記爲低質量序列的數目
  • 測序長度
  • GC含量


2. Per base sequence quality

這張圖可以清晰得展示測序數據的質量值分佈:
涉及fastq文件中“鹼基質量值Q”的理解(參考:https://www.jianshu.com/p/39115d21ee17

圖中各項元素的統計學意義:

  • 橫軸:測序序列的第1個-第150個鹼基(圖中只取到99)
  • 縱軸:鹼基質量值Q(Q越大,質量越好)
  • 每1個boxplot都是該位置所有序列的鹼基Q值的統計:
    上面的bar是90%分位數;
    箱子的上邊是75%分位數;
    箱子中的橫線是50%分位數;
    箱子的下邊是25%分位數;
    下面的bar是10%分位數
  • 藍色的細線是各個位置的平均值的連線

我們通常取用Q>20的鹼基用於後續分析,圖中可以看到90bp之後,鹼基質量值Q的10%分位數便始終低於20,因此可以把90bp之後的序列切除。

3. Per sequence quality scores

  • 橫軸:平均測序質量值(Q)
  • 縱軸:reads的數目

該圖絕大多數reads的平均測序質量Q值在35以上

4. per tile sequence quality

分析flowcell上不同的物理位置的測序質量分佈情況,觀察是否存在系統誤差(fastq文件的第一行通常記錄有tile編號)

  • 橫軸:測序序列的第1個-第150個鹼基
  • 縱軸:flowcell上tile的編號
  • 藍色代表質量分數較好,綠色代表質量分數差

圖中可以看到,剛開始測序時每個tile的測序質量都很好,隨着讀長的增加,一些個別的tile(如1201)很早便出現測序質量降低的情況

5. Per base sequence content

  • 橫軸:測序序列的第1個-第150個鹼基
  • 縱軸:AGCT鹼基在每個位置上的百分含量

理論上講,A與T相等,C與G相等,但是測序剛剛開始時由於儀器不穩定,很可能出現圖中所示的情況。因此,即使測序質量很高,也需要切掉開始的部分序列信息。

6. Per sequence GC content

  • 橫軸:平均GC含量百分比
  • 縱軸:序列數量
  • 藍色的線:是程序根據經驗分佈給出的理論值
  • 紅色的線:測序數據的真實GC含量分佈

因爲不同物種的核酸中,GC含量不同,因此如果紅色的線出現雙峯,很有可能數據中混入其他物種的DNA序列

7.Sequence Length Distribution
  • 橫軸:測序長度(單位爲bp)
  • 縱軸:測序序列的數目

理論上講,測序儀讀出的reads長度應該是完全相等的,但是總有一些偏差。不過偏差通常都在1bp之內,不會影響後續分析。如果偏差較大,則說明儀器在此次run中存在問題。

8. Adapter content
  • 橫軸:測序序列的第1個-第150個鹼基
  • 縱軸:adapter鹼基的含量

這張圖中,最後30多bp鹼基中存在一定比例的adapter序列,通常是由於建庫過程中,部分插入片段過短造成的 (低於讀長150bp)。
這種情況,需要在後續分析的時候需要先使用cutadapt軟件進行去接頭

9.Sequence Duplication Levels
  • 橫軸:重複次數
  • 縱軸:百分比
  • 藍色線:描述總測序序列的重複率
  • 紅色線:描述重複序列的重複率

從圖中的藍線可以看出,60%的測序序列是uniq序列(只有一條),20%的測序序列存在2條相同的序列,10%左右的測序序列存在3條相同的序列;從紅線可以看出,80%的重複序列重複出現2次,15%的重複序列出現3次,3%的重複序列出現4次

實驗層面如何減少duplication?

  • 提高原始DNA含量(減少多次PCR產生的PCR bias)
  • 建庫時DNA片段長度儘可能均一

分析層面如何減少duplication?

  • GATK/Picard: MarkDuplicates
  • Samtools: rmdup
  • Opengen: gencore
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章