測序發展小結

摘要:從1977年第一代DNA測序技術(Sanger法)1,發展至今三十多年時間,測序技術已取得了相當大的發展,從第一代到第三代乃至第四代,測序讀長從長到短,再從短到長。雖然就當前形勢看來第二代短讀長測序技術在全球測序市場上仍然佔有着絕對的優勢位置,但第三和第四代測序技術也已在這一兩年的時間中快速發展着。測序技術的每一次變革,也都對基因組研究,疾病醫療研究,藥物研發,育種等領域產生巨大的推動作用。在這裏我主要對當前的測序技術以及它們的測序原理做一個簡單的小結。
圖1:測序技術的發展歷程
  生命體遺傳信息的快速獲得對於生命科學的研究有着十分重要的意義。以上(圖1)所描述的是自沃森和克里克在1953年建立DNA雙螺旋結構以來,整個測序技術的發展歷程。
第一代測序技術
  第一代DNA測序技術用的是1975年由桑格(Sanger)和考爾森(Coulson)開創的鏈終止法或者是1976-1977年由馬克西姆(Maxam)和吉爾伯特(Gilbert)發明的化學法(鏈降解). 並在1977年,桑格測定了第一個基因組序列,是噬菌體X174的,全長5375個鹼基1。自此,人類獲得了窺探生命遺傳差異本質的能力,並以此爲開端步入基因組學時代。研究人員在Sanger法的多年實踐之中不斷對其進行改進。在2001年,完成的首個人類基因組圖譜就是以改進了的Sanger法爲其測序基礎,Sanger法核心原理是:由於ddNTP的2’和3’都不含羥基,其在DNA的合成過程中不能形成磷酸二酯鍵,因此可以用來中斷DNA合成反應,在4個DNA合成反應體系中分別加入一定比例帶有放射性同位素標記的ddNTP(分爲:ddATP,ddCTP,ddGTP和ddTTP),通過凝膠電泳和放射自顯影后可以根據電泳帶的位置確定待測分子的DNA序列(圖2)。這個網址爲sanger測序法制作了一個小短片,形象而生動。
  值得注意的是,就在測序技術起步發展的這一時期中,除了Sanger法之外還出現了一些其他的測序技術,如焦磷酸測序法、鏈接酶法等。其中,焦磷酸測序法是後來Roche公司454技術所使用的測序方法2–4,而連接酶測序法是後來ABI公司SOLID技術使用的測序方法2,4,但他們的共同核心手段都是利用了Sanger1中的可中斷DNA合成反應的dNTP。
圖2:Sanger法測序原理
  第二代測序技術
  總的說來,第一代測序技術的主要特點是測序讀長可達1000bp,準確性高達99.999%,但其測序成本高,通量低等方面的缺點,嚴重影響了其真正大規模的應用。因而第一代測序技術並不是最理想的測序方法。經過不斷的技術開發和改進,以Roche公司的454技術、illumina公司的Solexa,Hiseq技術和ABI公司的Solid技術爲標記的第二代測序技術誕生了。第二代測序技術大大降低了測序成本的同時,還大幅提高了測序速度,並且保持了高準確性,以前完成一個人類基因組的測序需要3年時間,而使用二代測序技術則僅僅需要1周,但在序列讀長方面比起第一代測序技術則要短很多。表1和圖3對第一代和第二代測序技術各自的特點以及測序成本作了一個簡單的比較5,以下我將對這三種主要的第二代測序技術的主要原理和特點作一個簡單的介紹。 
圖3. 測序成本的變化
  • Illumine
  Illumina公司的Solexa和Hiseq應該說是目前全球使用量最大的第二代測序機器,這兩個系列的技術核心原理是相同的2,4。這兩個系列的機器採用的都是邊合成邊測序的方法,它的測序過程主要分爲以下4步,如圖4.
     (1)DNA待測文庫構建
  利用超聲波把待測的DNA樣本打斷成小片段,目前除了組裝之外和一些其他的特殊要求之外,主要是打斷成200-500bp長的序列片段,並在這些小片段的兩端添加上不同的接頭,構建出單鏈DNA文庫。
     (2)Flowcell
  Flowcell是用於吸附流動DNA片段的槽道,當文庫建好後,這些文庫中的DNA在通過flowcell的時候會隨機附着在flowcell表面的channel上。每個Flowcell有8個channel,每個channel的表面都附有很多接頭,這些接頭能和建庫過程中加在DNA片段兩端的接頭相互配對(這就是爲什麼flowcell能吸附建庫後的DNA的原因),並能支持DNA在其表面進行橋式PCR的擴增。
     (3)橋式PCR擴增與變性
  橋式PCR以Flowcell表面所固定的接頭爲模板,進行橋形擴增,如圖4.a所示。經過不斷的擴增和變性循環,最終每個DNA片段都將在各自的位置上集中成束,每一個束都含有單個DNA模板的很多分拷貝,進行這一過程的目的在於實現將鹼基的信號強度放大,以達到測序所需的信號要求。
(4)測序
  測序方法採用邊合成邊測序的方法。向反應體系中同時添加DNA聚合酶、接頭引物和帶有鹼基特異熒光標記的4中dNTP(如同Sanger測序法)。這些dNTP的3’-OH被化學方法所保護,因而每次只能添加一個dNTP。在dNTP被添加到合成鏈上後,所有未使用的遊離dNTP和DNA聚合酶會被洗脫掉。接着,再加入激發熒光所需的緩衝液,用激光激發熒光信號,並有光學設備完成熒光信號的記錄,最後利用計算機分析將光學信號轉化爲測序鹼基。這樣熒光信號記錄完成後,再加入化學試劑淬滅熒光信號並去除dNTP 3’-OH保護基團,以便能進行下一輪的測序反應。Illumina的這種測序技術每次只添加一個dNTP的特點能夠很好的地解決同聚物長度的準確測量問題,它的主要測序錯誤來源是鹼基的替換,目前它的測序錯誤率在1%-1.5%之間,測序週期以人類基因組重測序爲例,30x測序深度大約爲1周。

圖4. Illumina測序流程
  • Roche 454
Roche 454測序系統是第一個商業化運營二代測序技術的平臺。它的主要測序原理是(圖5 abc)2:
(1)DNA文庫製備
  454測序系統的文件構建方式和illumina的不同,它是利用噴霧法將待測DNA打斷成300-800bp長的小片段,並在片段兩端加上不同的接頭,或將待測DNA變性後用雜交引物進行PCR擴增,連接載體,構建單鏈DNA文庫(圖5a)。
(2)Emulsion PCR (乳液PCR,其實是一個注水到油的獨特過程)
454當然DNA擴增過程也和illumina的截然不同,它將這些單鏈DNA結合在水油包被的直徑約28um的磁珠上,並在其上面孵育、退火。
  乳液PCR最大的特點是可以形成數目龐大的獨立反應空間以進行DNA擴增。其關鍵技術是“注水到油”(水包油),基本過程是在PCR反應前,將包含PCR所有反應成分的水溶液注入到高速旋轉的礦物油表面,水溶液瞬間形成無數個被礦物油包裹的小水滴。這些小水滴就構成了獨立的PCR反應空間。理想狀態下,每個小水滴只含一個DNA模板和一個磁珠。
  這些被小水滴包被的磁珠表面含有與接頭互補的DNA序列,因此這些單鏈DNA序列能夠特異地結合在磁珠上。同時孵育體系中含有PCR反應試劑,所以保證了每個與磁珠結合的小片段都能獨立進行PCR擴增,並且擴增產物仍可以結合到磁珠上。當反應完成後,可以破壞孵育體系並將帶有DNA的磁珠富集下來。進過擴增,每個小片段都將被擴增約100萬倍,從而達到下一步測序所要求的DNA量。
(3)焦磷酸測序
  測序前需要先用一種聚合酶和單鏈結合蛋白處理帶有DNA的磁珠,接着將磁珠放在一種PTP平板上。這種平板上特製有許多直徑約爲44um的小孔,每個小孔僅能容納一個磁珠,通過這種方法來固定每個磁珠的位置,以便檢測接下來的測序反應過程。  
  測序方法採用焦磷酸測序法,將一種比PTP板上小孔直徑更小的磁珠放入小孔中,啓動測序反應。測序反應以磁珠上大量擴增出的單鏈DNA爲模板,每次反應加入一種dNTP進行合成反應。如果dNTP能與待測序列配對,則會在合成後釋放焦磷酸基團。釋放的焦磷酸基團會與反應體系中的ATP硫酸化學酶反應生成ATP。生成的ATP和熒光素酶共同氧化使測序反應中的熒光素分子併發出熒光,同時由PTP板另一側的CCD照相機記錄,最後通過計算機進行光信號處理而獲得最終的測序結果。由於每一種dNTP在反應中產生的熒光顏色不同,因此可以根據熒光的顏色來判斷被測分子的序列。反應結束後,遊離的dNTP會在雙磷酸酶的作用下降解ATP,從而導致熒光淬滅,以便使測序反應進入下一個循環。由於454測序技術中,每個測序反應都在PTP板上獨立的小孔中進行,因而能大大降低相互間的干擾和測序偏差。454技術最大的優勢在於其能獲得較長的測序讀長,當前454技術的平均讀長可達400bp,並且454技術和illumina的Solexa和Hiseq技術不同,它最主要的一個缺點是無法準確測量同聚物的長度,如當序列中存在類似於PolyA的情況時,測序反應會一次加入多個T,而所加入的T的個數只能通過熒光強度推測獲得,這就有可能導致結果不準確。也正是由於這一原因,454技術會在測序過程中引入插入和缺失的測序錯誤。
圖5. Roche 454測序流程

  • Solid技術
Solid測序技術是ABI公司於2007年開始投入用於商業測序應用的儀器。它基於連接酶法,即利用DNA連接酶在連接過程之中測序(圖6)2,4。它的原理是:
圖6-a. Solid測序技術
    (1)DNA文庫構建
                片段打斷並在片段兩端加上測序接頭,連接載體,構建單鏈DNA文庫。
           (2)Emulsion PCR
  Solid的PCR過程也和454的方法類似,同樣採用小水滴emulsion PCR,但這些微珠比起454系統來說則要小得多,只有1um。在擴增的同時對擴增產物的3’端進行修飾,這是爲下一步的測序過程作的準備。3’修飾的微珠會被沉積在一塊玻片上。在微珠上樣的過程中,沉積小室將每張玻片分成1個、4個或8個測序區域(圖6-a)。Solid系統最大的優點就是每張玻片能容納比454更高密度的微珠,在同一系統中輕鬆實現更高的通量。
           (3)連接酶測序
  這一步是Solid測序的獨特之處。它並沒有採用以前測序時所常用的DNA聚合酶,而是採用了連接酶。Solid連接反應的底物是8鹼基單鏈熒光探針混合物,這裏將其簡單表示爲:3’-XXnnnzzz-5’。連接反應中,這些探針按照鹼基互補規則與單鏈DNA模板鏈配對。探針的5’末端分別標記了CY5、Texas Red、CY3、6-FAM這4種顏色的熒光染料(圖6-a)。這個8鹼基單鏈熒光探針中,第1和第2位鹼基(XX)上的鹼基是確定的,並根據種類的不同在6-8位(zzz)上加上了不同的熒光標記。這是Solid的獨特測序法,兩個鹼基確定一個熒光信號,相當於一次能決定兩個鹼基。這種測序方法也稱之爲兩鹼基測序法。當熒光探針能夠與DNA模板鏈配對而連接上時,就會發出代表第1,2位鹼基的熒光信號,圖6-a和圖6-b中的比色版所表示的是第1,2位鹼基的不同組合與熒光顏色的關係。在記錄下熒光信號後,通過化學方法在第5和第6位鹼基之間進行切割,這樣就能移除熒光信號,以便進行下一個位置的測序。不過值得注意的是,通過這種測序方法,每次測序的位置都相差5位。即第一次是第1、2位,第二次是第6、7位……在測到末尾後,要將新合成的鏈變性,洗脫。接着用引物n-1進行第二輪測序。引物n-1與引物n的區別是,二者在與接頭配對的位置上相差一個鹼基(圖6-a. 8)。也即是,通過引物n-1在引物n的基礎上將測序位置往3’端移動一個鹼基位置,因而就能測定第0、1位和第5、6位……第二輪測序完成,依此類推,直至第五輪測序,最終可以完成所有位置的鹼基測序,並且每個位置的鹼基均被檢測了兩次。該技術的讀長在2×50bp,後續序列拼接同樣比較複雜。由於雙次檢測,這一技術的原始測序準確性高達99.94%,而15x覆蓋率時的準確性更是達到了99.999%,應該說是目前第二代測序技術中準確性最高的了。但在熒光解碼階段,鑑於其是雙鹼基確定一個熒光信號,因而一旦發生錯誤就容易產生連鎖的解碼錯誤。
圖6-b. Solid測序技術
第三代測序技術
  測序技術在近兩三年中又有新的里程碑。以PacBio公司的SMRT和Oxford Nanopore Technologies納米孔單分子測序技術,被稱之爲第三代測序技術。與前兩代相比,他們最大的特點就是單分子測序,測序過程無需進行PCR擴增。
  其中PacBio SMRT技術其實也應用了邊合成邊測序的思想5,並以SMRT芯片爲測序載體。基本原理是: DNA聚合酶和模板結合,4色熒光標記 4 種鹼基(即是dNTP),在鹼基配對階段,不同鹼基的加入,會發出不同光,根據光的波長與峯值可判斷進入的鹼基類型。同時這個 DNA 聚合酶是實現超長讀長的關鍵之一,讀長主要跟酶的活性保持有關,它主要受激光對其造成的損傷所影響。PacBio SMRT技術的一個關鍵是怎樣將反應信號與周圍遊離鹼基的強大熒光背景區別出來。他們利用的是ZMW(零模波導孔)原理:如同微波爐壁上可看到的很多密集小孔。小孔直徑有考究,如果直徑大於微波波長,能量就會在衍射效應的作用下穿透面板而泄露出來,從而與周圍小孔相互干擾。如果孔徑小於波長,能量不會輻射到周圍,而是保持直線狀態(光衍射的原理),從而可起保護作用。同理,在一個反應管(SMRTCell:單分子實時反應孔)中有許多這樣的圓形納米小孔, 即 ZMW(零模波導孔),外徑 100多納米,比檢測激光波長小(數百納米),激光從底部打上去後不能穿透小孔進入上方溶液區,能量被限制在一個小範圍(體積20X 10-21 L)裏,正好足夠覆蓋需要檢測的部分,使得信號僅來自這個小反應區域,孔外過多遊離核苷酸單體依然留在黑暗中,從而實現將背景降到最低。另外,可以通過檢測相鄰兩個鹼基之間的測序時間,來檢測一些鹼基修飾情況,既如果鹼基存在修飾,則通過聚合酶時的速度會減慢,相鄰兩峯之間的距離增大,可以通過這個來之間檢測甲基化等信息(圖7)。SMRT技術的測序速度很快,每秒約10個dNTP。但是,同時其測序錯誤率比較高(這幾乎是目前單分子測序技術的通病),達到15%,但好在它的出錯是隨機的,並不會像第二代測序技術那樣存在測序錯誤的偏向,因而可以通過多次測序來進行有效的糾錯。
圖7.PacBio SMRT測序原理
  Oxford Nanopore Technologies公司所開發的納米單分子測序技術與以往的測序技術皆不同,它是基於電信號而不是光信號的測序技術5。該技術的關鍵之一是,他們設計了一種特殊的納米孔,孔內共價結合有分子接頭。當DNA鹼基通過納米孔時,它們使電荷發生變化,從而短暫地影響流過納米孔的電流強度(每種鹼基所影響的電流變化幅度是不同的),靈敏的電子設備檢測到這些變化從而鑑定所通過的鹼基(圖8)。
  該公司在去年基因組生物學技術進展年會(AGBT)上推出第一款商業化的納米孔測序儀,引起了科學界的極大關注。納米孔測序(和其他第三代測序技術)有望解決目前測序平臺的不足,納米孔測序的主要特點是:讀長很長,大約在幾十kb,甚至100 kb;錯誤率目前介於1%至4%,且是隨機錯誤,而不是聚集在讀取的兩端;數據可實時讀取;通量很高(30x人類基因組有望在一天內完成);起始DNA在測序過程中不被破壞;以及樣品製備簡單又便宜。理論上,它也能直接測序RNA。
  納米孔單分子測序計算還有另一大特點,它能夠直接讀取出甲基化的胞嘧啶,而不必像傳統方法那樣對基因組進行bisulfite處理。這對於在基因組水平直接研究表觀遺傳相關現象有極大的幫助。並且改方法的測序準確性可達99.8%,而且一旦發現測序錯誤也能較容易地進行糾正。但目前似乎還沒有應用該技術的相關報道。
圖8. 納米孔測序

  其他測序技術
  目前還有一種基於半導體芯片的新一代革命性測序技術——Ion Torrent6。該技術使用了一種佈滿小孔的高密度半導體芯片, 一個小孔就是一個測序反應池。當DNA聚合酶把核苷酸聚合到延伸中的DNA鏈上時,會釋放出一個氫離子,反應池中的PH發生改變,位於池下的離子感受器感受到H+離子信號,H+離子信號再直接轉化爲數字信號,從而讀出DNA序列(圖9)。這一技術的發明人同時也是454測序技術的發明人之一——Jonathan Rothberg,它的文庫和樣本製備跟454技術很像,甚至可以說就是454的翻版,只是測序過程中不是通過檢測焦磷酸熒光顯色,而是通過檢測H+信號的變化來獲得序列鹼基信息。Ion Torrent相比於其他測序技術來說,不需要昂貴的物理成像等設備,因此,成本相對來說會低,體積也會比較小,同時操作也要更爲簡單,速度也相當快速,除了2天文庫製作時間,整個上機測序可在2-3.5小時內完成,不過整個芯片的通量並不高,目前是10G左右,但非常適合小基因組和外顯子驗證的測序。    


圖9. Ion Torrent

  小結
  以上,對各代測序技術的原理做了簡要的闡述,這三代測序技術的特點比較彙總在以下表1和表2中。其中測序成本,讀長和通量是評估該測序技術先進與否的三個重要指標。第一代和第二代測序技術除了通量和成本上的差異之外,其測序核心原理(除Solid是邊連接邊測序之外)都是基於邊合成邊測序的思想。第二代測序技術的優點是成本較之一代大大下降,通量大大提升,但缺點是所引入PCR過程會在一定程度上增加測序的錯誤率,並且具有系統偏向性,同時讀長也比較短。第三代測序技術是爲了解決第二代所存在的缺點而開發的,它的根本特點是單分子測序,不需要任何PCR的過程,這是爲了能有效避免因PCR偏向性而導致的系統錯誤,同時提高讀長,並要保持二代技術的高通量,低成本的優點。
            表1:測序技術的比較
第X代
公司
平臺名稱
測序方法
檢測方法
大約讀長(鹼基數)
優點
相對侷限性
第一代
ABI/生命技術公司
3130xL-3730xL
桑格-毛細管電泳測序法
熒光/光學
600-1000
高讀長,準確度一次性達標率高,能很好處理重複序列和多聚序列
通量低;樣品製備成本高,使之難以做大量的平行測序
第一代
貝克曼
GeXP遺傳分析系統
桑格-毛細管電泳測序法
熒光/光學
600-1000
高讀長,準確度一次性達標率高,能很好處理重複序列和多聚序列;易小型化
通量低;單個樣品的製備成本相對較高
第二代
Roche/454
基因組測序儀FLX系統
焦磷酸測序法
光學
230-400
在第二代中最高讀長;比第一代的測序通量大
樣品製備較難;難於處理重複和同種鹼基多聚區域;試劑沖洗帶來錯誤累積;儀器昂貴
第二代
Illumina
HiSeq2000,HiSeq2500/MiSeq
可逆鏈終止物和合成測序法
熒光/光學
2x150
很高測序通量
儀器昂貴;用於數據刪節和分析的費用很高
第二代
ABI/Solid
5500xlSolid系統
連接測序法
熒光/光學
25-35
很高測序通量;在廣爲接受的幾種第二代平臺中,所要拼接出人類基因組的試劑成本最低
測序運行時間長;讀長短,造成成本高,數據分析困難和基因組拼接困難;儀器昂貴
第二代
赫利克斯
Heliscope
單分子合成測序法
熒光/光學
25-30
高通量;在第二代中屬於單分子性質的測序技術
讀長短,推高了測序成本,降低了基因組拼接的質量;儀器非常昂貴
第三代
太平洋生物科學公司
PacBio RS
實時單分子DNA測序
熒光/光學
~1000
高平均讀長,比第一代的測序時間降低;不需要擴增;最長單個讀長接近3000鹼基
並不能高效地將DNA聚合酶加到測序陣列中;準確性一次性達標的機會低(81-83%);DNA聚合酶在陣列中降解;總體上每個鹼基測序成本高(儀器昂貴);
第三代
全基因組學公司
GeXP遺傳分析系統
複合探針錨雜交和連接技術
熒光/光學
10
在第三代中通量最高;在所有測序技術中,用於拼接一個人基因組的試劑成本最低;每個測序步驟獨立,使錯誤的累積變得最低
低讀長; 模板製備妨礙長重複序列區域測序;樣品製備費事;尚無商業化供應的儀器
第三代
Ion Torrent/生命技術公司
個人基因組測序儀(PGM)
合成測序法
以離子敏感場效應晶體管檢測pH值變化
100-200
對核酸鹼基的摻入可直接測定;在自然條件下進行DNA合成(不需要使用修飾過的鹼基)
一步步的洗脫過程可導致錯誤累積;閱讀高重複和同種多聚序列時有潛在困難;
第三代
牛津納米孔公司
gridION
納米孔外切酶測序
電流
尚未定量
有潛力達到高讀長;可以成本生產納米孔;無需熒光標記或光學手段
切斷的核苷酸可能被讀錯方向;難於生產出帶多重平行孔的裝置

      表2:主流測序機器的成本測序比較
  以下圖10展示了當前全球測序儀的分佈情況。圖中的幾個熱點區主要分佈在中國的深圳(主要是華大),南歐,西歐和美國。 
圖10. 測序儀全球分佈http://omicsmaps.com/#

  參考文獻 
1.    Sanger, F. & Nicklen, S. DNA sequencing with chain-terminating. 74, 5463–5467 (1977).
2.    Mardis, E. R. Next-generation DNA sequencing methods. Annual review of genomics and human genetics 9, 387–402 (2008).
3.    Shendure, J. & Ji, H. Next-generation DNA sequencing. Nature biotechnology 26, 1135–45 (2008).
4.    Metzker, M. L. Sequencing technologies - the next generation. Nature reviews. Genetics 11, 31–46 (2010).
5.    Niedringhaus, T. P., Milanova, D., Kerby, M. B., Snyder, M. P. & Barron, A. E. Landscape of Next-Generation Sequencing Technologies. 4327–4341 (2011).
6.    Rothberg, J. M. et al. An integrated semiconductor device enabling non-optical genome sequencing. Nature 475, 348–52 (2011). 

原文來自:http://www.cnblogs.com/huangshujia/p/3233693.html
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章