刘小泽写于2020.7.20
为何取名叫“交响乐”?因为单细胞分析就像一个大乐团,需要各个流程的协同配合
单细胞交响乐1-常用的数据结构SingleCellExperiment
单细胞交响乐2-scRNAseq从实验到下游简介
单细胞交响乐3-细胞质控
单细胞交响乐4-归一化
单细胞交响乐5-挑选高变化基因
单细胞交响乐6-降维
单细胞交响乐7-聚类分群
单细胞交响乐8-marker基因检测
单细胞交响乐9-细胞类型注释
单细胞交响乐9-细胞类型注释
单细胞交响乐10-数据集整合后的批次矫正
单细胞交响乐11-多样本间差异分析
单细胞交响乐12-检测Doublet
单细胞交响乐13-细胞周期推断
单细胞交响乐14-细胞轨迹推断
单细胞交响乐15-scRNA与蛋白丰度信息结合
单细胞交响乐16-处理大型数据
单细胞交响乐17-不同单细胞R包的数据格式相互转换
单细胞交响乐18-实战一 Smart-seq2
单细胞交响乐19-实战二 STRT-Seq
单细胞交响乐20-实战三 10X 未过滤的PBMC数据
单细胞交响乐21-实战三 批量处理并整合多个10X PBMC数据
单细胞交响乐22-实战五 CEL-seq2
1 前言
前面的种种都是作为知识储备,但是不实战还是记不住前面的知识
这是第六个实战练习
这次使用的数据是:Muraro et al. (2016) 中的不同人类供体的胰腺细胞,和上一次相比使用的是更早期的CEL-seq。整体操作和上次CEL-seq2类似
数据准备
library(scRNAseq)
sce.muraro <- MuraroPancreasData()
sce.muraro
# class: SingleCellExperiment
# dim: 19059 3072
# metadata(0):
# assays(1): counts
# rownames(19059): A1BG-AS1__chr19 A1BG__chr19 ...
# ZZEF1__chr17 ZZZ3__chr1
# rowData names(2): symbol chr
# colnames(3072): D28-1_1 D28-1_2 ... D30-8_95
# D30-8_96
# colData names(3): label donor plate
# reducedDimNames(0):
# altExpNames(1): ERCC
这次有4个供体
table(sce.muraro$donor)
#
# D28 D29 D30 D31
# 768 768 768 768
不过这个基因命名很奇怪,它全部加上了染色体编号
> head(rownames(sce.muraro))
[1] "A1BG-AS1__chr19" "A1BG__chr19" "A1CF__chr10"
[4] "A2M-AS1__chr12" "A2ML1__chr12" "A2M__chr12"
ID转换
选择的方式是:将没有匹配的NA去掉,并且去掉重复的行
由于基因名很奇怪,所以需要把__chr
及后面的去掉
library(AnnotationHub)
edb <- AnnotationHub()[["AH73881"]]
gene.symb <- sub("__chr.*$", "", rownames(sce.muraro))
gene.ids <- mapIds(edb, keys=gene.symb,
keytype="SYMBOL", column="GENEID")
keep <- !is.na(gene.ids) & !duplicated(gene.ids)
# 过滤掉2000多基因
> table(keep)
keep
FALSE TRUE
2119 16940
sce.muraro <- sce.muraro[keep,]
rownames(sce.muraro) <- gene.ids[keep]
2 质控
依然是备份一下,把unfiltered数据主要用在质控的探索上
unfiltered <- sce.muraro
和上一次一样,如果只是针对ERCC和全部的批次进行质控,结果是
很明显,这个D28个捣鬼,钻了我们“大部分细胞都是高质量”的假设漏洞
因此,在过滤时不能考虑这个D28
library(scater)
stats <- perCellQCMetrics(sce.muraro)
qc <- quickPerCellQC(stats, percent_subsets="altexps_ERCC_percent",
batch=sce.muraro$donor, subset=sce.muraro$donor!="D28")
看看过滤掉多少
colSums(as.matrix(qc))
# low_lib_size low_n_features high_altexps_ERCC_percent discard
# 663 700 738 773
最后把过滤条件应用在原数据
sce.muraro <- sce.muraro[,!qc$discard]
3 归一化
继续使用去卷积方法
library(scran)
set.seed(1000)
clusters <- quickCluster(sce.muraro)
sce.muraro <- computeSumFactors(sce.muraro, clusters=clusters)
sce.muraro <- logNormCounts(sce.muraro)
summary(sizeFactors(sce.muraro))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.08782 0.54109 0.82081 1.00000 1.21079 13.98692
4 找高变异基因
再看一眼数据,发现其中有plate和donor信息,它们都是与批次相关的
sce.muraro
# class: SingleCellExperiment
# dim: 16940 2299
# metadata(0):
# assays(2): counts logcounts
# rownames(16940): ENSG00000268895 ENSG00000121410 ...
# ENSG00000159840 ENSG00000074755
# rowData names(2): symbol chr
# colnames(2299): D28-1_1 D28-1_2 ... D30-8_93
# D30-8_94
# colData names(4): label donor plate sizeFactor
# reducedDimNames(0):
# altExpNames(1): ERCC
table(sce.muraro$donor)
#
# D28 D29 D30 D31
# 333 601 676 689
table(sce.muraro$plate)
#
# 1 2 3 4 5 6 7 8
# 281 292 292 295 282 285 283 289
因此就把这二者结合作为批次信息,依然是使用针对ERCC的构建模型方法
block <- paste0(sce.muraro$plate, "_", sce.muraro$donor)
dec.muraro <- modelGeneVarWithSpikes(sce.muraro, "ERCC", block=block)
top.muraro <- getTopHVGs(dec.muraro, prop=0.1)
5 矫正批次效应
library(batchelor)
set.seed(1001010)
merged.muraro <- fastMNN(sce.muraro, subset.row=top.muraro,
batch=sce.muraro$donor)
metadata(merged.muraro)$merge.info$lost.var
## D28 D29 D30 D31
## [1,] 0.060847 0.024121 0.000000 0.00000
## [2,] 0.002646 0.003018 0.062421 0.00000
## [3,] 0.003449 0.002641 0.002598 0.08162
6 降维+聚类
降维
set.seed(100111)
merged.muraro <- runTSNE(merged.muraro, dimred="corrected")
聚类
snn.gr <- buildSNNGraph(merged.muraro, use.dimred="corrected")
colLabels(merged.muraro) <- factor(igraph::cluster_walktrap(snn.gr)$membership)
如果想看一下这里的分群和之前的批次之间的关系:
Tip:如果感觉批次或分群数量太多,看着效果不好,可以用热图的形式展示:
tab <- table(Cluster=colLabels(merged.muraro), CellType=sce.muraro$label)
library(pheatmap)
pheatmap(log10(tab+10), color=viridis::viridis(100))
最后检查一下供体的批次效应
gridExtra::grid.arrange(
plotTSNE(merged.muraro, colour_by="label"),
plotTSNE(merged.muraro, colour_by="batch"),
ncol=2
)
欢迎关注我们的公众号~_~
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到[email protected]