Seurat Weekly NO.17 || 一个R包的CNS之路

seurat发展历史,cns之路

在单细胞数据分析中,特别是对初学者来说,Seurat是一个教科书级别的工具。至于这个用来分析单细胞多组学的工具为什么叫这个名字,我想,与它问世的第一篇文献不无关系:

这篇文章的第一作者Rahul Satija和作者Aviv Regev成为日后单细胞领域人们耳熟能详的名字,而Seurat是一位画家的名字:

乔治·修拉(Georges Seurat,1859-1891),1859年12月2日生于巴黎,受过完整的美术学院教育,曾师从安格尔的学生亨利·莱曼(Henri Lehmann)学习古典主义绘画,后来又研究过 卢浮宫中的大师作品,对光学和色彩理论特别关注并为之做了大量的实验。他的画作风格相当与众不同,Seurat的画充满了细腻缤纷的小点,当你靠近看,每一个点都充满著理性的笔触,与梵高的狂野,还有塞尚的色块都大为不同。把文艺复兴传统的古典结构和印象主义的色彩试验结合起来。Seurat擅长画都市中的风景画,也擅长将色彩理论套用到画作当中。把最新的绘画空间概念、传统的幻象透视空间、以及在色彩和光线的知觉方面的最新科学发现结合起来。

而这也是一篇描绘空间分析的单细胞文章NBT。我们知道,空间定位是细胞命运和行为的关键决定因素,但在复杂组织中,空间解析、转录组范围内基因表达谱的方法还缺乏。RNA染色方法只检测少量转录本,而测量基因表达的scRNA-seq将细胞从其固有的空间环境中分离出来。正式在这篇文章中,Seurat以一个附件的形式面世了,Seurat一种通过整合单细胞RNA-seq数据和原位RNA模式来推断细胞定位的计算策略。


这里的几个附件都值得读一读,如Supplementary Text and Figures中讲述了空间分析的大部分关键点也给出了第一套Seurat教程:

在这个意义上,Serurat是为空间分析而生的。然后为了我们更好地理解Seurat,第一版的源代码我们还是需要拜读一下的:

Seurat_Source\seurat.R
Seurat_Source\seuratFxns.R
Seurat_Source\zfRenderSeurat.R

在2021年的Seurat的更新日志中,我们中不到SeuratV1的信息,这个日志是从Seurat 2.0.0开始记录的。V2是Seurat功能和形象的一大转折和重新定型,尽管保留了空间分析的功能,但更多地是转向单细胞多组学数据的整合分析。

随着单细胞测序通量和纬度的提升,识别跨多个数据集(实验条件、技术平台、不同物种)的细胞亚群成为一个挑战。Seurat V2基于公共变异源(common sources of variation)集成scRNA-seq数据集的分析策略,允许跨数据集识别共享种群并进行下游比较分析。这即是日后人们在做数据整合(Integration)时说到的CCA的方法实现途径。

  • Stuart, Butler, et al., Cell 2019 [Seurat V3]
    仅仅一年之后,在整合海量单细胞数据这条路上,Seurat越走越远,随着单细胞数据解析的组织类型越来越多,仅仅用Seurat的CCA还是有很多数据集无法整合到一起。于是,整合力度更大的算法出现了,策略也有所变化:直接以一个作为reference另一个作为query。这个概念像极了基因组数据分析中常用的mapping、alignment、blast。

单细胞转录组学已经改变了我们描述细胞状态的能力,但深入的生物学理解需要的不仅仅是亚群的分类。随着测量不同细胞模式技术的出现,一个关键的分析挑战是整合这些数据集,以更好地了解细胞的身份和功能。Seurat V3将不同的数据集“锚定”在一起,使我们不仅能够集成跨scRNA-seq技术的单细胞测量,而且能够集成跨不同模式的单细胞测量。

  • Hao, Hao, et al., bioRxiv 2020 [Seurat V4]
    2020年10月,纽约基因组所( New York Genome Center )的 Satija Lab团队开发的单细胞分析工具Seurat升级到了4.0,其特性之一是开发了加权邻近(weighted-nearest neighbor,WNN)算法来分析多模态数据。所谓多模态(multimodal )是指同时在一个细胞内测量分属于(广义?)中心法则不同过程的特征(如,RNA,ATAC,膜蛋白等)。
seurat引用情况,技术快风

与2017年以来的Seurat的快速更新同时发生的是,单细胞技术的快速应用与普及。简单的几行命令可以看出,2021年以来,大部分时间,一日之内就有上千人下载和和安装Seurat:

# install.packages("cranlogs")
library(cranlogs)
tail(Seuratdl <- cran_downloads(from = "2017-08-01",  to= "2021-06-01", packages = c("Seurat")))
          date count package
1396 2021-05-27  1441  Seurat
1397 2021-05-28  1101  Seurat
1398 2021-05-29   499  Seurat
1399 2021-05-30   487  Seurat
1400 2021-05-31  1022  Seurat
1401 2021-06-01  1316  Seurat
plot(Seuratdl$date,Seuratdl$count)
seurat开发

Seurat的广泛应用既反映了单细胞组学的热度,也说明Seurat团队在开源这件是上做的很好。github上每天都有人提问交流,开发者也是其中的积极参与者。让我们简单回顾一下这个R包的发展史,感受一下时间的力量。

正式因为对单细胞数据分析有着深刻的理解和与用户的广泛交流,Seurat单细胞数据分析工具箱日渐完善。成为大部分入门单细胞数据分析的首选工具。Seurat不仅教程丰富,还附有大量可以直接练习分析的数据集和对其他工具的友好接口,如Velocity、LIGER、Monocle3、Harmony、alevin、Nebulosa等。

seurat数据结构,可扩展,数据管理

既然定位于初学者,或者说是单细胞探索性数据分析工具,那我们就来看看Seurat在除了质控,降维聚类,差异分析,整合分析之外一个十分重要的功能:数据管理。

基于R语言的S4结构,Seurat构建了一个以表达矩阵为核心的单细胞多组学数据结构。这样,一个Seurat其实就是一个study的实验设计。

这个数据结构也是大部分刚接触R语言的同学最容易困惑的:

  • 为什么函数输入的是Seurat对象,输出的也还是Seurat呢?
  • 降维的数据它是如何调用的呢?数据又藏在哪里呢?
  • 更多找不到
开启你的seurat之旅,最短入门路径

最短入门路径是:

  • 安装R语言
  • 安装Seurat
  • 安装SeuratData
  • 打开Seurat网页
  • 练习单细胞数据分析
  • 分析自己课题组的数据
  • 发表文献时引用Seurat
  • 写自己的SeuratWrappers包

先练习再分析,先用SeurtData的数据集练习教程理解单细胞分析中的概念和Seurat的数据分析结构。


https://satijalab.org/seurat/
https://satijalab.org/seurat/news/index.html

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章