Seurat Weekly NO.17 || 一個R包的CNS之路

seurat發展歷史,cns之路

在單細胞數據分析中,特別是對初學者來說,Seurat是一個教科書級別的工具。至於這個用來分析單細胞多組學的工具爲什麼叫這個名字,我想,與它問世的第一篇文獻不無關係:

這篇文章的第一作者Rahul Satija和作者Aviv Regev成爲日後單細胞領域人們耳熟能詳的名字,而Seurat是一位畫家的名字:

喬治·修拉(Georges Seurat,1859-1891),1859年12月2日生於巴黎,受過完整的美術學院教育,曾師從安格爾的學生亨利·萊曼(Henri Lehmann)學習古典主義繪畫,後來又研究過 盧浮宮中的大師作品,對光學和色彩理論特別關注併爲之做了大量的實驗。他的畫作風格相當與衆不同,Seurat的畫充滿了細膩繽紛的小點,當你靠近看,每一個點都充滿著理性的筆觸,與梵高的狂野,還有塞尚的色塊都大爲不同。把文藝復興傳統的古典結構和印象主義的色彩試驗結合起來。Seurat擅長畫都市中的風景畫,也擅長將色彩理論套用到畫作當中。把最新的繪畫空間概念、傳統的幻象透視空間、以及在色彩和光線的知覺方面的最新科學發現結合起來。

而這也是一篇描繪空間分析的單細胞文章NBT。我們知道,空間定位是細胞命運和行爲的關鍵決定因素,但在複雜組織中,空間解析、轉錄組範圍內基因表達譜的方法還缺乏。RNA染色方法只檢測少量轉錄本,而測量基因表達的scRNA-seq將細胞從其固有的空間環境中分離出來。正式在這篇文章中,Seurat以一個附件的形式面世了,Seurat一種通過整合單細胞RNA-seq數據和原位RNA模式來推斷細胞定位的計算策略。


這裏的幾個附件都值得讀一讀,如Supplementary Text and Figures中講述了空間分析的大部分關鍵點也給出了第一套Seurat教程:

在這個意義上,Serurat是爲空間分析而生的。然後爲了我們更好地理解Seurat,第一版的源代碼我們還是需要拜讀一下的:

Seurat_Source\seurat.R
Seurat_Source\seuratFxns.R
Seurat_Source\zfRenderSeurat.R

在2021年的Seurat的更新日誌中,我們中不到SeuratV1的信息,這個日誌是從Seurat 2.0.0開始記錄的。V2是Seurat功能和形象的一大轉折和重新定型,儘管保留了空間分析的功能,但更多地是轉向單細胞多組學數據的整合分析。

隨着單細胞測序通量和緯度的提升,識別跨多個數據集(實驗條件、技術平臺、不同物種)的細胞亞羣成爲一個挑戰。Seurat V2基於公共變異源(common sources of variation)集成scRNA-seq數據集的分析策略,允許跨數據集識別共享種羣並進行下游比較分析。這即是日後人們在做數據整合(Integration)時說到的CCA的方法實現途徑。

  • Stuart, Butler, et al., Cell 2019 [Seurat V3]
    僅僅一年之後,在整合海量單細胞數據這條路上,Seurat越走越遠,隨着單細胞數據解析的組織類型越來越多,僅僅用Seurat的CCA還是有很多數據集無法整合到一起。於是,整合力度更大的算法出現了,策略也有所變化:直接以一個作爲reference另一個作爲query。這個概念像極了基因組數據分析中常用的mapping、alignment、blast。

單細胞轉錄組學已經改變了我們描述細胞狀態的能力,但深入的生物學理解需要的不僅僅是亞羣的分類。隨着測量不同細胞模式技術的出現,一個關鍵的分析挑戰是整合這些數據集,以更好地瞭解細胞的身份和功能。Seurat V3將不同的數據集“錨定”在一起,使我們不僅能夠集成跨scRNA-seq技術的單細胞測量,而且能夠集成跨不同模式的單細胞測量。

  • Hao, Hao, et al., bioRxiv 2020 [Seurat V4]
    2020年10月,紐約基因組所( New York Genome Center )的 Satija Lab團隊開發的單細胞分析工具Seurat升級到了4.0,其特性之一是開發了加權鄰近(weighted-nearest neighbor,WNN)算法來分析多模態數據。所謂多模態(multimodal )是指同時在一個細胞內測量分屬於(廣義?)中心法則不同過程的特徵(如,RNA,ATAC,膜蛋白等)。
seurat引用情況,技術快風

與2017年以來的Seurat的快速更新同時發生的是,單細胞技術的快速應用與普及。簡單的幾行命令可以看出,2021年以來,大部分時間,一日之內就有上千人下載和和安裝Seurat:

# install.packages("cranlogs")
library(cranlogs)
tail(Seuratdl <- cran_downloads(from = "2017-08-01",  to= "2021-06-01", packages = c("Seurat")))
          date count package
1396 2021-05-27  1441  Seurat
1397 2021-05-28  1101  Seurat
1398 2021-05-29   499  Seurat
1399 2021-05-30   487  Seurat
1400 2021-05-31  1022  Seurat
1401 2021-06-01  1316  Seurat
plot(Seuratdl$date,Seuratdl$count)
seurat開發

Seurat的廣泛應用既反映了單細胞組學的熱度,也說明Seurat團隊在開源這件是上做的很好。github上每天都有人提問交流,開發者也是其中的積極參與者。讓我們簡單回顧一下這個R包的發展史,感受一下時間的力量。

正式因爲對單細胞數據分析有着深刻的理解和與用戶的廣泛交流,Seurat單細胞數據分析工具箱日漸完善。成爲大部分入門單細胞數據分析的首選工具。Seurat不僅教程豐富,還附有大量可以直接練習分析的數據集和對其他工具的友好接口,如Velocity、LIGER、Monocle3、Harmony、alevin、Nebulosa等。

seurat數據結構,可擴展,數據管理

既然定位於初學者,或者說是單細胞探索性數據分析工具,那我們就來看看Seurat在除了質控,降維聚類,差異分析,整合分析之外一個十分重要的功能:數據管理。

基於R語言的S4結構,Seurat構建了一個以表達矩陣爲核心的單細胞多組學數據結構。這樣,一個Seurat其實就是一個study的實驗設計。

這個數據結構也是大部分剛接觸R語言的同學最容易困惑的:

  • 爲什麼函數輸入的是Seurat對象,輸出的也還是Seurat呢?
  • 降維的數據它是如何調用的呢?數據又藏在哪裏呢?
  • 更多找不到
開啓你的seurat之旅,最短入門路徑

最短入門路徑是:

  • 安裝R語言
  • 安裝Seurat
  • 安裝SeuratData
  • 打開Seurat網頁
  • 練習單細胞數據分析
  • 分析自己課題組的數據
  • 發表文獻時引用Seurat
  • 寫自己的SeuratWrappers包

先練習再分析,先用SeurtData的數據集練習教程理解單細胞分析中的概念和Seurat的數據分析結構。


https://satijalab.org/seurat/
https://satijalab.org/seurat/news/index.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章