单细胞交响乐23-实战六 CEL-seq

刘小泽写于2020.7.20
为何取名叫“交响乐”？因为单细胞分析就像一个大乐团，需要各个流程的协同配合
单细胞交响乐1-常用的数据结构SingleCellExperiment
单细胞交响乐2-scRNAseq从实验到下游简介
 单细胞交响乐3-细胞质控
 单细胞交响乐4-归一化
 单细胞交响乐5-挑选高变化基因
 单细胞交响乐6-降维
 单细胞交响乐7-聚类分群
 单细胞交响乐8-marker基因检测
 单细胞交响乐9-细胞类型注释
 单细胞交响乐9-细胞类型注释
 单细胞交响乐10-数据集整合后的批次矫正
 单细胞交响乐11-多样本间差异分析
 单细胞交响乐12-检测Doublet
单细胞交响乐13-细胞周期推断
 单细胞交响乐14-细胞轨迹推断
 单细胞交响乐15-scRNA与蛋白丰度信息结合
 单细胞交响乐16-处理大型数据
 单细胞交响乐17-不同单细胞R包的数据格式相互转换
 单细胞交响乐18-实战一 Smart-seq2
单细胞交响乐19-实战二 STRT-Seq
单细胞交响乐20-实战三 10X 未过滤的PBMC数据
 单细胞交响乐21-实战三批量处理并整合多个10X PBMC数据
 单细胞交响乐22-实战五 CEL-seq2

1 前言

前面的种种都是作为知识储备，但是不实战还是记不住前面的知识
这是第六个实战练习

这次使用的数据是：Muraro et al. (2016) 中的不同人类供体的胰腺细胞，和上一次相比使用的是更早期的CEL-seq。整体操作和上次CEL-seq2类似

数据准备

library(scRNAseq)
sce.muraro <- MuraroPancreasData()
sce.muraro
# class: SingleCellExperiment 
# dim: 19059 3072 
# metadata(0):
#   assays(1): counts
# rownames(19059): A1BG-AS1__chr19 A1BG__chr19 ...
# ZZEF1__chr17 ZZZ3__chr1
# rowData names(2): symbol chr
# colnames(3072): D28-1_1 D28-1_2 ... D30-8_95
# D30-8_96
# colData names(3): label donor plate
# reducedDimNames(0):
#   altExpNames(1): ERCC

这次有4个供体

table(sce.muraro$donor)
# 
# D28 D29 D30 D31 
# 768 768 768 768

不过这个基因命名很奇怪，它全部加上了染色体编号

> head(rownames(sce.muraro))
[1] "A1BG-AS1__chr19" "A1BG__chr19"     "A1CF__chr10"    
[4] "A2M-AS1__chr12"  "A2ML1__chr12"    "A2M__chr12"

ID转换

选择的方式是：将没有匹配的NA去掉，并且去掉重复的行

由于基因名很奇怪，所以需要把__chr及后面的去掉

library(AnnotationHub)
edb <- AnnotationHub()[["AH73881"]]
gene.symb <- sub("__chr.*$", "", rownames(sce.muraro))
gene.ids <- mapIds(edb, keys=gene.symb, 
    keytype="SYMBOL", column="GENEID")

keep <- !is.na(gene.ids) & !duplicated(gene.ids)
# 过滤掉2000多基因
> table(keep)
keep
FALSE  TRUE 
 2119 16940 

sce.muraro <- sce.muraro[keep,]
rownames(sce.muraro) <- gene.ids[keep]

2 质控

依然是备份一下，把unfiltered数据主要用在质控的探索上

unfiltered <- sce.muraro

和上一次一样，如果只是针对ERCC和全部的批次进行质控，结果是

很明显，这个D28个捣鬼，钻了我们“大部分细胞都是高质量”的假设漏洞

因此，在过滤时不能考虑这个D28

library(scater)
stats <- perCellQCMetrics(sce.muraro)
qc <- quickPerCellQC(stats, percent_subsets="altexps_ERCC_percent",
    batch=sce.muraro$donor, subset=sce.muraro$donor!="D28")

看看过滤掉多少

colSums(as.matrix(qc))
# low_lib_size            low_n_features high_altexps_ERCC_percent                   discard 
# 663                       700                       738                       773

最后把过滤条件应用在原数据

sce.muraro <- sce.muraro[,!qc$discard]

3 归一化

继续使用去卷积方法

library(scran)
set.seed(1000)
clusters <- quickCluster(sce.muraro)
sce.muraro <- computeSumFactors(sce.muraro, clusters=clusters)
sce.muraro <- logNormCounts(sce.muraro)

summary(sizeFactors(sce.muraro))
# Min.  1st Qu.   Median     Mean  3rd Qu.     Max. 
# 0.08782  0.54109  0.82081  1.00000  1.21079 13.98692

4 找高变异基因

再看一眼数据，发现其中有plate和donor信息，它们都是与批次相关的

sce.muraro
# class: SingleCellExperiment 
# dim: 16940 2299 
# metadata(0):
#   assays(2): counts logcounts
# rownames(16940): ENSG00000268895 ENSG00000121410 ...
# ENSG00000159840 ENSG00000074755
# rowData names(2): symbol chr
# colnames(2299): D28-1_1 D28-1_2 ... D30-8_93
# D30-8_94
# colData names(4): label donor plate sizeFactor
# reducedDimNames(0):
#   altExpNames(1): ERCC

table(sce.muraro$donor)
# 
# D28 D29 D30 D31 
# 333 601 676 689 
table(sce.muraro$plate)
# 
# 1   2   3   4   5   6   7   8 
# 281 292 292 295 282 285 283 289

因此就把这二者结合作为批次信息，依然是使用针对ERCC的构建模型方法

block <- paste0(sce.muraro$plate, "_", sce.muraro$donor)
dec.muraro <- modelGeneVarWithSpikes(sce.muraro, "ERCC", block=block)
top.muraro <- getTopHVGs(dec.muraro, prop=0.1)

5 矫正批次效应

library(batchelor)
set.seed(1001010)
merged.muraro <- fastMNN(sce.muraro, subset.row=top.muraro, 
    batch=sce.muraro$donor)

metadata(merged.muraro)$merge.info$lost.var
##           D28      D29      D30     D31
## [1,] 0.060847 0.024121 0.000000 0.00000
## [2,] 0.002646 0.003018 0.062421 0.00000
## [3,] 0.003449 0.002641 0.002598 0.08162

6 降维+聚类

降维

set.seed(100111)
merged.muraro <- runTSNE(merged.muraro, dimred="corrected")

聚类

snn.gr <- buildSNNGraph(merged.muraro, use.dimred="corrected")
colLabels(merged.muraro) <- factor(igraph::cluster_walktrap(snn.gr)$membership)

如果想看一下这里的分群和之前的批次之间的关系：

Tip：如果感觉批次或分群数量太多，看着效果不好，可以用热图的形式展示：

tab <- table(Cluster=colLabels(merged.muraro), CellType=sce.muraro$label)
library(pheatmap)
pheatmap(log10(tab+10), color=viridis::viridis(100))

最后检查一下供体的批次效应

gridExtra::grid.arrange(
    plotTSNE(merged.muraro, colour_by="label"),
    plotTSNE(merged.muraro, colour_by="batch"),
    ncol=2
)

欢迎关注我们的公众号～_～　　
我们是两个农转生信的小硕，打造生信星球，想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到[email protected]

单细胞交响乐23-实战六 CEL-seq

1 前言

数据准备

ID转换

2 质控

依然是备份一下，把unfiltered数据主要用在质控的探索上

因此，在过滤时不能考虑这个D28

看看过滤掉多少

最后把过滤条件应用在原数据

3 归一化

4 找高变异基因

5 矫正批次效应

6 降维+聚类

降维

聚类

如果想看一下这里的分群和之前的批次之间的关系：

Tip：如果感觉批次或分群数量太多，看着效果不好，可以用热图的形式展示：

最后检查一下供体的批次效应

物理机开关机

致各位生信小夥伴

富集分析圈圈圖

如何用Conda安裝GATK？

bedtools的簡單操作版本

生信星球小練習—批量讀取10X數據

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結