seurat發展歷史,cns之路
在單細胞數據分析中,特別是對初學者來說,Seurat是一個教科書級別的工具。至於這個用來分析單細胞多組學的工具爲什麼叫這個名字,我想,與它問世的第一篇文獻不無關係:
-
Satija, Farrell, et al., Nat Biotechnol 2015 [Seurat V1]
Satija, R., Farrell, J., Gennert, D. et al. Spatial reconstruction of single-cell gene expression data. Nat Biotechnol 33, 495–502 (2015). https://doi.org/10.1038/nbt.3192
這篇文章的第一作者Rahul Satija和作者Aviv Regev成爲日後單細胞領域人們耳熟能詳的名字,而Seurat是一位畫家的名字:
喬治·修拉(Georges Seurat,1859-1891),1859年12月2日生於巴黎,受過完整的美術學院教育,曾師從安格爾的學生亨利·萊曼(Henri Lehmann)學習古典主義繪畫,後來又研究過 盧浮宮中的大師作品,對光學和色彩理論特別關注併爲之做了大量的實驗。他的畫作風格相當與衆不同,Seurat的畫充滿了細膩繽紛的小點,當你靠近看,每一個點都充滿著理性的筆觸,與梵高的狂野,還有塞尚的色塊都大爲不同。把文藝復興傳統的古典結構和印象主義的色彩試驗結合起來。Seurat擅長畫都市中的風景畫,也擅長將色彩理論套用到畫作當中。把最新的繪畫空間概念、傳統的幻象透視空間、以及在色彩和光線的知覺方面的最新科學發現結合起來。
而這也是一篇描繪空間分析的單細胞文章NBT。我們知道,空間定位是細胞命運和行爲的關鍵決定因素,但在複雜組織中,空間解析、轉錄組範圍內基因表達譜的方法還缺乏。RNA染色方法只檢測少量轉錄本,而測量基因表達的scRNA-seq將細胞從其固有的空間環境中分離出來。正式在這篇文章中,Seurat以一個附件的形式面世了,Seurat一種通過整合單細胞RNA-seq數據和原位RNA模式來推斷細胞定位的計算策略。
這裏的幾個附件都值得讀一讀,如Supplementary Text and Figures中講述了空間分析的大部分關鍵點也給出了第一套Seurat教程:
在這個意義上,Serurat是爲空間分析而生的。然後爲了我們更好地理解Seurat,第一版的源代碼我們還是需要拜讀一下的:
Seurat_Source\seurat.R
Seurat_Source\seuratFxns.R
Seurat_Source\zfRenderSeurat.R
在2021年的Seurat的更新日誌中,我們中不到SeuratV1的信息,這個日誌是從Seurat 2.0.0開始記錄的。V2是Seurat功能和形象的一大轉折和重新定型,儘管保留了空間分析的功能,但更多地是轉向單細胞多組學數據的整合分析。
-
Butler* et al., Nat Biotechnol 2018 [Seurat V2]
Butler, A., Hoffman, P., Smibert, P. et al. Integrating single-cell transcriptomic data across different conditions, technologies, and species. Nat Biotechnol 36, 411–420 (2018). https://doi.org/10.1038/nbt.4096
隨着單細胞測序通量和緯度的提升,識別跨多個數據集(實驗條件、技術平臺、不同物種)的細胞亞羣成爲一個挑戰。Seurat V2基於公共變異源(common sources of variation)集成scRNA-seq數據集的分析策略,允許跨數據集識別共享種羣並進行下游比較分析。這即是日後人們在做數據整合(Integration)時說到的CCA的方法實現途徑。
-
Stuart, Butler, et al., Cell 2019 [Seurat V3]
僅僅一年之後,在整合海量單細胞數據這條路上,Seurat越走越遠,隨着單細胞數據解析的組織類型越來越多,僅僅用Seurat的CCA還是有很多數據集無法整合到一起。於是,整合力度更大的算法出現了,策略也有所變化:直接以一個作爲reference另一個作爲query。這個概念像極了基因組數據分析中常用的mapping、alignment、blast。
單細胞轉錄組學已經改變了我們描述細胞狀態的能力,但深入的生物學理解需要的不僅僅是亞羣的分類。隨着測量不同細胞模式技術的出現,一個關鍵的分析挑戰是整合這些數據集,以更好地瞭解細胞的身份和功能。Seurat V3將不同的數據集“錨定”在一起,使我們不僅能夠集成跨scRNA-seq技術的單細胞測量,而且能夠集成跨不同模式的單細胞測量。
-
Hao, Hao, et al., bioRxiv 2020 [Seurat V4]
2020年10月,紐約基因組所( New York Genome Center )的 Satija Lab團隊開發的單細胞分析工具Seurat升級到了4.0,其特性之一是開發了加權鄰近(weighted-nearest neighbor,WNN)算法來分析多模態數據。所謂多模態(multimodal )是指同時在一個細胞內測量分屬於(廣義?)中心法則不同過程的特徵(如,RNA,ATAC,膜蛋白等)。
seurat引用情況,技術快風
與2017年以來的Seurat的快速更新同時發生的是,單細胞技術的快速應用與普及。簡單的幾行命令可以看出,2021年以來,大部分時間,一日之內就有上千人下載和和安裝Seurat:
# install.packages("cranlogs")
library(cranlogs)
tail(Seuratdl <- cran_downloads(from = "2017-08-01", to= "2021-06-01", packages = c("Seurat")))
date count package
1396 2021-05-27 1441 Seurat
1397 2021-05-28 1101 Seurat
1398 2021-05-29 499 Seurat
1399 2021-05-30 487 Seurat
1400 2021-05-31 1022 Seurat
1401 2021-06-01 1316 Seurat
plot(Seuratdl$date,Seuratdl$count)
seurat開發
Seurat的廣泛應用既反映了單細胞組學的熱度,也說明Seurat團隊在開源這件是上做的很好。github上每天都有人提問交流,開發者也是其中的積極參與者。讓我們簡單回顧一下這個R包的發展史,感受一下時間的力量。
正式因爲對單細胞數據分析有着深刻的理解和與用戶的廣泛交流,Seurat單細胞數據分析工具箱日漸完善。成爲大部分入門單細胞數據分析的首選工具。Seurat不僅教程豐富,還附有大量可以直接練習分析的數據集和對其他工具的友好接口,如Velocity、LIGER、Monocle3、Harmony、alevin、Nebulosa等。
seurat數據結構,可擴展,數據管理
既然定位於初學者,或者說是單細胞探索性數據分析工具,那我們就來看看Seurat在除了質控,降維聚類,差異分析,整合分析之外一個十分重要的功能:數據管理。
基於R語言的S4結構,Seurat構建了一個以表達矩陣爲核心的單細胞多組學數據結構。這樣,一個Seurat其實就是一個study的實驗設計。
這個數據結構也是大部分剛接觸R語言的同學最容易困惑的:
- 爲什麼函數輸入的是Seurat對象,輸出的也還是Seurat呢?
- 降維的數據它是如何調用的呢?數據又藏在哪裏呢?
- 更多找不到
開啓你的seurat之旅,最短入門路徑
最短入門路徑是:
- 安裝R語言
- 安裝Seurat
- 安裝SeuratData
- 打開Seurat網頁
- 練習單細胞數據分析
- 分析自己課題組的數據
- 發表文獻時引用Seurat
- 寫自己的SeuratWrappers包
先練習再分析,先用SeurtData的數據集練習教程理解單細胞分析中的概念和Seurat的數據分析結構。
- Seurat Weekly NO.0 || 開刊詞
- Seurat Weekly NO.1 || 到底分多少個羣是合適的?!
- Seurat Weekly NO.2 || 我該如何取子集
- Seurat Weekly NO.3 || 直接用Seurat畫fig2
- Seurat Weekly NO.4 || 高效數據管理
- Seurat Weekly NO.5 pseudocell該如何計算||或談Seurat的擴展
- Seurat Weekly NO.06 || 數據對象轉化之Scanpy2Seurat
- Seurat Weekly NO.07 || V4 新特性
- Seurat Weekly NO.08 || Seurat 交互系統
https://satijalab.org/seurat/
https://satijalab.org/seurat/news/index.html