Barcoding || 海量單細胞的關鍵技術

海量單細胞技術涉及到三大底層技術:

  • 微流控技術
  • Barcode 技術
  • UMI技術

故事要從第一屆單細胞培訓班開始講起,還記得在講完第一場單細胞技術簡介及應用之後,問大家有沒有什麼問題可以討論。有位老師問:請問什麼叫Barcode?

我們知道海量單細胞技術是在微孔或液滴中物理隔離單個細胞,在這個小格子中裂解細胞,釋放mRNA(或其他細胞內小分子信息),這裏第一步就是用Barcode來對每個小格子裏面的細胞來加標籤。目前的技術是把成千上萬的Barcode種在一個磁珠上,把這個磁珠放到小格子裏標記細胞。

今天我們討論的就是這個barcode。

  • barcode 多長是合理的?
  • barcode之間的漢明距離對單細胞實驗的影響
  • barcode 還可以標記其他生物信息嗎?可以,已經在用了。

作爲一種標記技術,DNA條形碼(DNA barcode)是指生物體內能夠代表該物種的、標準的、有足夠變異的、易擴增且相對較短的DNA片段。DNA條形碼已經成爲生態學研究的重要工具,不僅用於物種鑑定,同時也幫助生物學家進一步瞭解生態系統內發生的相互作用。隨着時間的推移,條形碼越來越多地用於追蹤單個細胞,並定量評估它們對克隆的貢獻。儘管條形碼定量完全依賴於計數測序讀數,但對該方法準確性的詳細研究仍然有限。

barcode 本質上是一串鹼基序列,如AAAAA、ATCAAGTTC等等。作爲細胞的標籤,我們認爲這段分子標籤至少要是穩定的,如果是一段有許多GC鹼基組成的序列,那麼它的穩定性很可能達不到要求。這段分子標籤要從細胞裂解,經過UMI標記分子,RT,建庫測序。所以我們在設計這個段序列的時候,要考慮它的用處。同時還要考慮它的可合成性。

另一個主要的問題就是關於生產的,在固定了barcode的長度之後,就要考慮合成什麼樣的序列了,如果合成的序列太相似,就很可能把不同的磁珠標記上一樣的barcede。這樣磁珠一旦形成,就會使得不同的油滴或微孔形成帶有一樣的barcode,從而形成另一種雙細胞(不是一個微孔或者液滴包含兩個細胞的那種)。所以我們可以根據barcode的距離推斷這種可能性,衡量序列相似性的一種方法就是漢明距離。

漢明距離是以理查德·衛斯里·漢明的名字命名的。在信息論中,兩個等長字符串之間的漢明距離是兩個字符串對應位置的不同字符的個數。換句話說,它就是將一個字符串變換成另外一個字符串所需要替換的字符個數。下面我們來算一下幾個例子:

library(stringdist) # 至少你應該知道我用的是R語言
stringdist('ATGCCTAA','ATGCCTAA', method = "hamming")
[1] 0
stringdist('AAAAAAAA','ATGCCTAA', method = "hamming")
[1] 5
stringdist('AAAAAACC','ATGCCTAA', method = "hamming")
[1] 7

那麼barcode列表的最小漢明距離越大,那麼這個系統就更加穩定。目前市場上主流的兩款技術10X和新格元的barcode列表都是可以在其開源軟件查到的,所以可以比較一下。

新格元的barcode 列表在其定量軟件CeleScope軟件(可以在github或gitee)中的路徑是:CeleScope/celescope/data/chemistry/scopeV2.0.0 #新格元的barcode是組合起來的,具體可以閱讀CeleScope源碼瞭解其結構。

10X 的定量軟件Cellranger(可在其官網下載)中Barcode列表在:cellranger-X.X.X/lib/python/cellranger/barcodes

分享一個粗略的方法來尋在其barcode的最小值:

seq1 = barcodelist
library(tidyverse)
min(unlist(map(1:10000,function(i){
    x = sample(seq1,1)
    y = sample(seq1,1)
    while(x==y){y=sample(seq1,1)}
    stringdist(x,y, method = "hamming")
    })))

漢明距離的另一個應用場景是用來做barcode的糾錯,二代測序不是完美的測序技術肯定會有測錯的情況,那麼如何判斷測出來的序列是不是一個細胞的barcode呢?一般的方法是在其定量軟件裏面內置一個白名單,拿測的序列和這個白名單比較,來矯正barcode。對於沒有出現在白名單的barcode允許某個漢明距離的差異。

所以在你的單細胞系統裏面,這些關鍵問題思考全面了嗎?


Thielecke, L., Aranyossy, T., Dahl, A. et al. Limitations and challenges of genetic barcode quantification. Sci Rep 7, 43249 (2017). https://doi.org/10.1038/srep43249
https://bookdown.org/lambdamoses/museumst/current-techs.html
https://bioinformatics.stackexchange.com/questions/5183/why-are-there-more-barcodes-than-gems-in-10x-chromium-data
https://kb.10xgenomics.com/hc/en-us/articles/115003133812-How-does-cellranger-count-process-and-filter-UMIs-
https://kb.10xgenomics.com/hc/en-us/articles/115004037743-How-does-Cell-Ranger-correct-for-amplification-bias-
https://github.com/singleron-RD/CeleScope

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章