3、RNAseq(3)--對RNAseq測序數據的質量控制（fastqc）

原創

莫訁

2020-06-14 04:06

質量彙報生成與讀取

fastq質量彙報

使用命令fastqc -o <output dir> <seqfile1,seqfile2..>來進行質量報告。

# 下載fastqc工具包
$ wget https://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
# 解壓
& unzip fastqc_v0.11.8.zip
# 執行fastqc
& ~FastQC/./fastqc -f fastq -o /home/cenhui2018/QWJ/sequence_data/20191030_NGS_DATA/result /home/cenhui2018/QWJ/sequence_data/20191030_NGS_DATA/19R576_combined_R1.fastq

需要注意的是./fastqc前面的"."不可以省略

每個fastqc文件會獲得一個質量分析報告，來描述此次RNA-seq的測序質量。獲取質量報告如圖：

Basic Statistics

從read水平來總覽，判斷測序質量。 Encoding ：測序平臺的版本，因爲不同版本的 error p的計算方法不一樣。 Total sequence：測序深度。一共測序的read數。是質量分析的主要參數。 Sequence length：測序長度。 %GC：GC鹼基含量比，一般是物種特異性，比如人類是42%左右。

Perbase sequence quality

橫座標：第1-100個測序得到的鹼基縱座標：測序質量評估。這裏的Q=-10*lg10(error P),即20%代表1%的錯誤讀取率，30%代表0.1%的錯誤讀取率箱型圖：紅色線，是某個順序下測序鹼基所有測序質量的中位數。黃色塊，是測序質量在25%-75%區域。藍色線，平均數。一般要求：測序箱型圖10%的線大於Q=20。Q20過濾法。

per tail sequence quality

橫座標：同上。縱座標：tail的index編號。目的：防止測序過程中某些tail受不可控因素測序質量低。標準：藍色表示質量高，淺色或暖色表示質量低，後續的分析可以去除低質量tail。

Per sequence quality scores

從read的總體測序質量分佈來判定此次的測序質量，是質量分析的重要標準之一。橫座標：表示read的測序質量Q=-10*lg10(error P)。縱座標：表示在該Q值下的read 的數量標準：需要集中在高分區

Per base sequence content

橫座標：1-100的測序鹼基位置縱座標：鹼基百分比標準：理論上，ATCG鹼基的分佈應該差別不大，即四條線應該大致平行狀態。如果AT或CG差異超過10%，此項檢測是危險的。一般是測序機器前幾個鹼基測序時候因爲狀態調整導致測序略有偏差，如果前幾個鹼基偏差較大，可以在後期將前幾個鹼基切掉。造成這個偏差較大的原因重要是由於測序數據中的adapter沒有clean乾淨。所以在接下來的數據處理中需要對測序數據進行clean data的處理，下一個章節會詳細介紹clean data的步驟。

Sequence Length Distribution

統計read的鹼基長度，本例理論上測序應該全是150bp。橫座標：是read的鹼基長度縱座標：是該長度下的read數量

Per sequence GC content

橫座標：每個read的平局GC含量佔比縱座標：一定GC比下的read數標準：藍色是理論值，紅色是真實值。兩者接近是比較好的狀態。如果有雙峯，可能混有了其他物種的DNA序列。

Adapter Content

一般測序在初步生成fastq文件時候，adapter會被去除，但是有的會沒有去除或者遺漏部分adapter。所以這一步是檢測RNA-seq測序過程中adapter是否去除。如果沒有去除會嚴重影響後續的比對工作。沒有去除的adapter在質量處理環節會被處理掉。

multiqc質量報告
multiqc可以對幾個fastqc報告文件進行總結並彙總到一個報告文件中，以更直觀到防止展示。使用方法

multiqc <analysis directory>

參考鏈接：
https://zhuanlan.zhihu.com/p/61847802

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

3、RNAseq(3)--對RNAseq測序數據的質量控制（fastqc）

質量彙報生成與讀取

fastq質量彙報

Basic Statistics

Perbase sequence quality

per tail sequence quality

Per sequence quality scores

Per base sequence content

Sequence Length Distribution

Per sequence GC content

Adapter Content

高效率使用windows

智能決策新時代：可視化大屏是否能夠超越傳統白板？

解密Prompt系列28. LLM Agent之金融領域摸索：FinMem & FinAgent

分享幾個.NET開源的AI和LLM相關項目框架

生物信息學習網站參考

Linux服務器硬件情況的查看

利用guppy進行basecalling guppy介紹

Linux文本三劍客之----grep的使用

Linux文本編輯三劍客之---awk的使用

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結