mapping文件
mapping文件是我們整個16S分析中唯一需要手動來處理的一個文件,因爲我們測序的一組reads中可能包含來自多個樣品的數據。那麼這些數據就需要進行切分,將不同樣品的數據分出來。這個有點類似於illumina測序中使用index標籤,混合測序完成後根據index標籤進行拆分。
在測序數據中,一般reads中都含有barcode,根據barcode就能將序列就進程切分,因此我們就需要一個barcode文件,在16S序列中稱之爲mapping文件。
mapping文件是列表格式的文本文件,形如:
每個mapping文件中必須的數據:
- 第一列:樣品名稱
- 第二列:barcode
- 第三列:擴增樣品的引物
- 第四列:用來分組,比如實驗組對照組
- 第六列:樣品描述
每個mapping文件中還可以包含其他數據:
- 第五列:樣品採樣的時間
- ……
paired reads 連接
如果使用illumina測序,illumina測序採用雙末端測序,只測序一條序列的兩端。
在以前,測序讀長短,如果一條16S序列長500bp,而讀長只有200bp,那中間的100bp就不會讀取到。但是現在隨着科技發展,設備的讀長邊長,就會出現重複讀取的現象,重複部分稱爲overlap,如果16S序列長500bp,一次讀長300bp,那中間的100bp就會被重複讀取,可以將測序的兩條reads連接起來。
注意:
- 測序的兩條 reads是來自於DNA的兩條鏈,而且方向都是5’-3’
- 測序的文庫大小不是固定不變的,你要處理的16S序列的長度不一定都是500bp,overlap鹼基數也並不是固定不變的,如果處理的16S序列的很短,那overlap會很長,如果16S序列的較長,那可能不會出現overlap。
- 出現overlap的位置位於reads尾部,因此允許一定的錯配。
切分數據 split
將兩條reads連接成一個之後,我們就需要藉助barcode進行切分,因爲一個測序文件中往往有多個樣品的數據,我們需要將其分割。使用腳本文件即可切分。
去除嵌合體
在基因克隆時,由於pcr過程中某些因素造成同一個克隆片段來源於不同物體的現象,常見於微生物多樣性分析基因克隆時。也就是測序得到的一條序列是來自多個模板的,在宏基因組拼接時,將多個物種的序列拼接在一起了。
對於嵌合體一定要去除,否則就會出現比對時一條序列能對應到兩個物種。
OTU
OTU的全稱是 Operational Taxonomic Units,直譯過來是可操作的物種分類單元,是在系統發生學研究或羣體遺傳學研究中,爲了便於進行分析,人爲給某一個分類單元設置的同一標誌。
16S rDNA的測序片段稱爲一個tag(tag是整個16S的一部分,比如V3-V4區域),我們可以用每一條tags逐個進行比對註釋,一個tag對應一個物種序列。但是如果數據量比較大,這樣工作量就太大了。因此我們將這些tag進行聚類。將相似度>=97%的tags聚到一起稱爲一個OTU。
通常按照 97% 的相似性閾值將序列劃分爲不同的 OTU,每一個 OTU 通常被視爲一個微生物物種。相似性小於97%就可以認爲屬於不同的種,相似性小於93%-95%,可以認爲屬於不同的屬。樣品中的微生物多樣性和不同微生物的丰度都是基於對OTU的分析。
OTU聚類的方法
三種OTU聚類的方法,現在還出了新的聚類方法,後邊介紹。
- de novo
- de novo算法:基於序列本身的聚類,不需要外部的參考序列。將序列兩兩之間進行比對,根據設定的閾值進行判斷,如果滿足閾值條件則聚在
- 優點:無需參考序列
- 缺點:序列條數增多,比對就會變慢;受閾值影響比較大。
- closed-reference
- closed- reference算法:序列會首先與一個聚類完成的數據庫進行比對也就是非冗餘的數據庫。這種數據我們稱爲 cluster-centroids。所以將這種數據庫稱爲一個 closed的 database,如果一條序列在設定的閾值範圍內,與其中任何一個 cluster都比對不上,我們就將其排除掉
- 優點:1.可以並行計算,提高比對效率;2.直接註釋到參考序列數據庫
- 缺點:受限於數據庫的完整性和準確性 ,如果用於比對的數據庫不全,那比對不上的數據就會丟棄。
- open-reference
- open-reference算法:首先使用 closed- reference的方法進行聚類。沒有比對到 cluster的序列不會被丟棄,而是採用 de novo的方法進行聚類。
- 綜合了 de novo和 closed- reference方法的優點。
序列比對
聚類完成之後,在每個OTU中選取一條代表序列進行物種註釋,每個OTU會對應一個物種信息。
物種註釋:就的OTU選出來的代表序列與已知的序列數據庫進行比對,來進行物種分類鑑定。
比對完成之後要對結果進行過濾。 經過比對之後我們會獲得一個結果,其中會有比對不上的數據,比對不上則證明比對的數據庫中沒有該序列,可能有兩種情況:
- 出現新物種
- 序列錯誤
這種沒有比對出來的序列不用於構建系統發育樹。之後需要使用qiime生成OTU table,是一個biom格式的文件,OTU table中包含數據如下:
- 第一行:樣品名
- 第一列:OTU名字
- 最後一列:註釋的物種分類信息
之後的各種統計、計算都是基於OTU table進行的。
在連續肝了幾天前段之後,我終於回想起來我是個學生物的,不肝前端了,趕緊寫我的論文。