fast_qc對測序數據的質控

原創

2021-01-27 01:52

fast_qc是一款用於測序數據質量分析的java軟件，它的使用非常簡單，這篇文章只簡單記錄fast_qc的使用方法，以及如何讀懂fast_qc的圖形化報告。

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1...seqfileN
-o --outdir  #fast_qc生成的報告文件的儲存路徑
--extract  #fast_qc在運行時默認會將生成的所有文件打包到1個壓縮文件裏（使用該參數便不再打包）
-t --threads #選擇程序運行的線程數（每個線程佔用250M內存）
-f  #強制指定輸入文件格式（可以是fastq or bam or sam）
-c --contaminants #污染物選項，輸入爲文件（文件格式"Name\tSequences"，fastqc計算時會評估污染的情況並統計分析）
-a --adapter #接頭選項，輸入爲文件（文件格式"Name\tSequences"，儲存adapter序列信息，如果沒有使用該選項，fastqc會默認使用通用引物序列評估adapter污染）

1. Basic statistics

有效信息：

總序列數量
被標記爲低質量序列的數目
測序長度
GC含量

2. Per base sequence quality

這張圖可以清晰得展示測序數據的質量值分佈：
涉及fastq文件中“鹼基質量值Q”的理解（參考：https://www.jianshu.com/p/39115d21ee17）

圖中各項元素的統計學意義：

橫軸：測序序列的第1個-第150個鹼基（圖中只取到99）
縱軸：鹼基質量值Q（Q越大，質量越好）
每1個boxplot都是該位置所有序列的鹼基Q值的統計：
上面的bar是90%分位數；
箱子的上邊是75%分位數；
箱子中的橫線是50%分位數；
箱子的下邊是25%分位數；
下面的bar是10%分位數
藍色的細線是各個位置的平均值的連線

我們通常取用Q>20的鹼基用於後續分析，圖中可以看到90bp之後，鹼基質量值Q的10%分位數便始終低於20，因此可以把90bp之後的序列切除。

3. Per sequence quality scores

橫軸：平均測序質量值（Q）
縱軸：reads的數目

該圖絕大多數reads的平均測序質量Q值在35以上

4. per tile sequence quality

分析flowcell上不同的物理位置的測序質量分佈情況，觀察是否存在系統誤差（fastq文件的第一行通常記錄有tile編號）

橫軸：測序序列的第1個-第150個鹼基
縱軸：flowcell上tile的編號
藍色代表質量分數較好，綠色代表質量分數差

圖中可以看到，剛開始測序時每個tile的測序質量都很好，隨着讀長的增加，一些個別的tile（如1201）很早便出現測序質量降低的情況

5. Per base sequence content

橫軸：測序序列的第1個-第150個鹼基
縱軸：AGCT鹼基在每個位置上的百分含量

理論上講，A與T相等，C與G相等，但是測序剛剛開始時由於儀器不穩定，很可能出現圖中所示的情況。因此，即使測序質量很高，也需要切掉開始的部分序列信息。

6. Per sequence GC content

橫軸：平均GC含量百分比
縱軸：序列數量
藍色的線：是程序根據經驗分佈給出的理論值
紅色的線：測序數據的真實GC含量分佈

因爲不同物種的核酸中，GC含量不同，因此如果紅色的線出現雙峯，很有可能數據中混入其他物種的DNA序列

7.Sequence Length Distribution

橫軸：測序長度（單位爲bp）
縱軸：測序序列的數目

理論上講，測序儀讀出的reads長度應該是完全相等的，但是總有一些偏差。不過偏差通常都在1bp之內，不會影響後續分析。如果偏差較大，則說明儀器在此次run中存在問題。

8. Adapter content

橫軸：測序序列的第1個-第150個鹼基
縱軸：adapter鹼基的含量

這張圖中，最後30多bp鹼基中存在一定比例的adapter序列，通常是由於建庫過程中，部分插入片段過短造成的（低於讀長150bp）。
這種情況，需要在後續分析的時候需要先使用cutadapt軟件進行去接頭

9.Sequence Duplication Levels

橫軸：重複次數
縱軸：百分比
藍色線：描述總測序序列的重複率
紅色線：描述重複序列的重複率

從圖中的藍線可以看出，60%的測序序列是uniq序列（只有一條），20%的測序序列存在2條相同的序列，10%左右的測序序列存在3條相同的序列；從紅線可以看出，80%的重複序列重複出現2次，15%的重複序列出現3次，3%的重複序列出現4次

實驗層面如何減少duplication?

提高原始DNA含量（減少多次PCR產生的PCR bias）

建庫時DNA片段長度儘可能均一

分析層面如何減少duplication?

GATK/Picard: MarkDuplicates

Samtools: rmdup

Opengen: gencore

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

fast_qc對測序數據的質控

1. Basic statistics

2. Per base sequence quality

3. Per sequence quality scores

4. per tile sequence quality

5. Per base sequence content

6. Per sequence GC content

7.Sequence Length Distribution

8. Adapter content

9.Sequence Duplication Levels

組織成像質譜流式 vs 空間轉錄組測序

Excel函數（一）：字符串處理

Excel函數（二）：數值轉文本（適合財務）

Excel 快捷鍵（持續更新中...）

Excel函數（五）：條件統計

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結