質量彙報生成與讀取
fastq質量彙報
使用命令fastqc -o <output dir> <seqfile1,seqfile2..>
來進行質量報告。
# 下載fastqc工具包
$ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
# 解壓
& unzip fastqc_v0.11.8.zip
# 執行fastqc
& ~FastQC/./fastqc -f fastq -o /home/cenhui2018/QWJ/sequence_data/20191030_NGS_DATA/result /home/cenhui2018/QWJ/sequence_data/20191030_NGS_DATA/19R576_combined_R1.fastq
需要注意的是./fastqc前面的"."不可以省略
每個fastqc文件會獲得一個質量分析報告,來描述此次RNA-seq的測序質量。 獲取質量報告如圖:
Basic Statistics
從read水平來總覽,判斷測序質量。 Encoding :測序平臺的版本,因爲不同版本的 error p的計算方法不一樣。 Total sequence:測序深度。一共測序的read數。是質量分析的主要參數。 Sequence length:測序長度。 %GC:GC鹼基含量比,一般是物種特異性,比如人類是42%左右。
Perbase sequence quality
橫座標: 第1-100個測序得到的鹼基 縱座標: 測序質量評估。這裏的Q=-10*lg10(error P),即20%代表1%的錯誤讀取率,30%代表0.1%的錯誤讀取率 箱型圖: 紅色線,是某個順序下測序鹼基所有測序質量的中位數。黃色塊,是測序質量在25%-75%區域。藍色線,平均數。 一般要求: 測序箱型圖10%的線大於Q=20。Q20過濾法。
per tail sequence quality
橫座標:同上。 縱座標:tail的index編號。 目的:防止測序過程中某些tail受不可控因素測序質量低。 標準:藍色表示質量高,淺色或暖色表示質量低,後續的分析可以去除低質量tail。
Per sequence quality scores
從read的總體測序質量分佈來判定此次的測序質量,是質量分析的重要標準之一。 橫座標:表示read的測序質量Q=-10*lg10(error P)。 縱座標:表示在該Q值下的read 的數量 標準:需要集中在高分區
Per base sequence content
橫座標:1-100的測序鹼基位置 縱座標:鹼基百分比 標準:理論上,ATCG鹼基的分佈應該差別不大,即四條線應該大致平行狀態。如果AT或CG差異超過10%,此項檢測是危險的。一般是測序機器前幾個鹼基測序時候因爲狀態調整導致測序略有偏差,如果前幾個鹼基偏差較大,可以在後期將前幾個鹼基切掉。造成這個偏差較大的原因重要是由於測序數據中的adapter沒有clean乾淨。所以在接下來的數據處理中需要對測序數據進行clean data的處理,下一個章節會詳細介紹clean data的步驟。
Sequence Length Distribution
統計read的鹼基長度,本例理論上測序應該全是150bp。 橫座標:是read的鹼基長度 縱座標:是該長度下的read數量
Per sequence GC content
橫座標:每個read的平局GC含量佔比 縱座標:一定GC比下的read數 標準:藍色是理論值,紅色是真實值。兩者接近是比較好的狀態。如果有雙峯,可能混有了其他物種的DNA序列。
Adapter Content
一般測序在初步生成fastq文件時候,adapter會被去除,但是有的會沒有去除或者遺漏部分adapter。所以這一步是檢測RNA-seq測序過程中adapter是否去除。如果沒有去除會嚴重影響後續的比對工作。沒有去除的adapter在質量處理環節會被處理掉。
- multiqc質量報告
multiqc可以對幾個fastqc報告文件進行總結並彙總到一個報告文件中,以更直觀到防止展示。使用方法
multiqc <analysis directory>