二代測序質量控制（FastQC）

【最近拿到了近1TB的全基因組測試數據，在數據分析之前，有必要對數據質量進行評價】

在二代測序過程中，測序儀通過熒光成像讀出每一個DNA或者RNA序列的鹼基類型。在大量的閱讀識別鹼基過程中，難免會有各種各樣的錯誤。所以，當我們拿到測序數據之後，不是急急忙忙地進行數據分析，而是首先應該對測序數據的質量進行評估，識別出可能存在的錯誤、錯誤的類型和對後續數據分析的潛在影響。

1、文件完整性校驗

由於測序文件通常很大，在文件傳輸、存儲過程中，難免會造成文件不完整。爲此，在獲得測序數據的同時，測序公司還通常會提供一個MD5.txt的校驗文件。如果測序文件不完整或者被修改（哪個僅僅是多了一個空格），MD5校驗碼也會出現天壤之別。

上圖是兩個測序文件和一個MD5.txt校驗文件（含有兩個測序文件的校驗碼），在Linux下，通過md5sum命令來生成校驗碼，然後和MD5.txt中給出的校驗碼覈對。

2、FASTQ文件

FASTQ包含了每一個讀長最原始的信息，通常每4行來描述一個讀長。

第一行：以@開頭，然後是一串和測序過程相關的信息

第二行：具體的ACGT核酸序列

第三行：以+號開頭，和第一行相似

第四行：一串字符組合，每一個字符代表一個鹼基的質量評分，所以該行的長度應該和第二行鹼基的長度是一致的。

示例如下：

@SRR031716.1 HWI-EAS299_4_30M2BAAXX:3:1:944:1798 length=37

GTGGATATGGATATCCAAATTATATTTGCATAATTTG

+SRR031716.1 HWI-EAS299_4_30M2BAAXX:3:1:944:1798 length=37

IIIIIIIIIIIIIIIIIIIIIIIIIIIII8IIIIIII

表示該序列片段的名字爲SRR031716.1，對應的DNA序列爲GTGGATATGGATATCCAAATTATATTTGCATAATTTG，然後對應的每一個鹼基的質量評分爲IIIIIIIIIIIIIIIIIIIIIIIIIIIII8IIIIIII。每一個鹼基的質量評分是用ASCII編碼來表示的，也就是Phred quality score。分值越高，表示該鹼基的準確性越好。

Phred Quality Score	Probability of incorrect base call	Base call accuracy
10	1 in 10	90%
20	1 in 100	99%
30	1 in 1000	99.9%
40	1 in 10,000	99.99%
50	1 in 100,000	99.999%
60	1 in 1,000,000	99.9999%

3、讀長質量評估

對測序數據質量的評估通常使用FastQC軟件來完成，它是開源免費的工具，能夠快速對測序數據進行檢測，並且生成很詳細的質量評估報告。

FastQC能夠對整個測序文件中的讀長數據進行質量評估，並完成如下彙總圖：

其中X座標軸表示每一個讀長中鹼基的位置，y座標軸表示質量評分。上圖是一個150bp讀長的測序，每一個位置都表示出了該位置質量評分的分佈情況。藍線表示質量評分的平均值，背景顏色綠色表示高質量評分區間，黃色爲可接受質量評分區間，紅色爲差質量評分區間。注意對於二代測序，在每一個讀長末端出現質量評分一定程度的降低是正常現象。

4、每個序列質量評分

以每一個讀長序列爲質量評價單位，檢查是否存在一個讀長序列的評分普遍偏低的情況。如果存在很大比例的讀長序列評分偏低，可能是由於該序列在測序過程中沒能被很好的顯影（如在顯影視界的邊緣等）。

5、每個測序方格（tile）的質量評分

描述每一個測序方格的質量，冷色調錶示該方格的鹼基質量評分在平均水平（之上），暖色調錶示在平均水平之下，一個理想的情況是整個圖都是藍色的冷色調。

6、每個序列鹼基含量（Per base sequence content）

該圖表示在一個讀長上每一個位置的ACGT的比例。由一個隨機測序文庫產生的測序數據，ACGT四種鹼基在一個讀長的不同位置的比例應該是一致的，即四條線應該平行。有些建庫方法會造成讀長開頭和其他部分四種鹼基分佈不一致，這是一種建庫造成的系統偏倚，它通常不會對下游數據分析造成影響，不過FastQC通常還是會給出警告或錯誤提示。

7、每個序列GC含量（per sequence GC content）

該圖展示了一個讀長序列中GC含量的分佈，藍線表示理論GC分佈情況，紅線表示實際GC分佈。由一個隨機測序文庫產生的測序數據，其GC含量應該是藍線的正態分佈，峯值表示整個基因組GC含量的平均水平。如果紅線不是正態分佈類型，那麼可能意味着測序文庫污染，或其他偏倚的存在。

8、每個鹼基N含量（per base N content）

如果測序儀不能很有把握的確定一個鹼基類型，那麼通常會用N來代替這個位置可能的鹼基。上圖反應了每個位置的N的比例。在測序中出現一些N是很正常的，尤其是在讀長的末端。但是如果N的比例高達幾個百分比，就需要引起我們的注意。

9、序列重複水平（sequence duplication levels）

在一個理想的測序文庫中，大多數的序列應該只出現一次。如果多次重複出現，那麼可能意味着存在一定程度的富集偏倚（如PCR過度擴增等）。FastQC軟件能夠計數每一種序列的重複出現次數。如上圖，藍線是表示測序文庫中所有序列的重複次數分佈情況，紅線是去重之後的分佈情況。正常情況下，藍線和紅線的峯值都應在在座標軸做左端。而如果出現了過多的重複序列，那麼峯值會變低，曲線變平。可能意味着存在測序文庫的污染或者嚴重的技術偏倚導致過多的重複序列。

10、總結

二代測序的特點導致了其讀長末端測序錯誤率增大，因爲有必要對測序數據進行過濾和篩選，以提高數據質量，避免對下游數據分析產生影響。

應當剔除的讀長序列：

· 平均質量評分過低

· 過短

· 含有過多不確定鹼基（N）

· GC含量偏倚嚴重

應當被屏蔽的序列區域：

· 質量評分較低的區域

· 序列的起始端和末端

· 測序配體（adaptor）

軟件實現：

· FastQC：測序數據質量評價

· Cutadapt：對數據進行過濾刪減，提升數據質量

===== THE END ====

參考資料：https://galaxyproject.github.io/training-material/topics/sequence-analysis/tutorials/quality-control/tutorial.html

二代測序質量控制（FastQC）

關注全民健康，探索創新突破

oracle 12C identity新特性

軟件測試面試題（95%的軟件公司都會問）

在ubuntu16.04上搭建samba文件共享服務器

樹莓派基金會推出 4 美元的微控制器

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結