劉小澤寫於2020.7.20
爲何取名叫“交響樂”?因爲單細胞分析就像一個大樂團,需要各個流程的協同配合
單細胞交響樂1-常用的數據結構SingleCellExperiment
單細胞交響樂2-scRNAseq從實驗到下游簡介
單細胞交響樂3-細胞質控
單細胞交響樂4-歸一化
單細胞交響樂5-挑選高變化基因
單細胞交響樂6-降維
單細胞交響樂7-聚類分羣
單細胞交響樂8-marker基因檢測
單細胞交響樂9-細胞類型註釋
單細胞交響樂9-細胞類型註釋
單細胞交響樂10-數據集整合後的批次矯正
單細胞交響樂11-多樣本間差異分析
單細胞交響樂12-檢測Doublet
單細胞交響樂13-細胞週期推斷
單細胞交響樂14-細胞軌跡推斷
單細胞交響樂15-scRNA與蛋白丰度信息結合
單細胞交響樂16-處理大型數據
單細胞交響樂17-不同單細胞R包的數據格式相互轉換
單細胞交響樂18-實戰一 Smart-seq2
單細胞交響樂19-實戰二 STRT-Seq
單細胞交響樂20-實戰三 10X 未過濾的PBMC數據
單細胞交響樂21-實戰三 批量處理並整合多個10X PBMC數據
單細胞交響樂22-實戰五 CEL-seq2
單細胞交響樂23-實戰六 CEL-seq
1 前言
前面的種種都是作爲知識儲備,但是不實戰還是記不住前面的知識
這是第七個實戰練習
這次使用的數據是:Lawlor et al. (2017) 中的不同人類供體的胰腺細胞
SMARTer其實不是個像Fluidigm、10X一樣的製備系統,它是一個試劑盒。SMART技術是Clontech(Takara旗下全資子公司)的專利技術,2009年升級爲SAMRTer技術後,採用更靈敏的SMARTer Oligo和高效的SMARTScribe RT進行逆轉錄,使其靈敏度提高至皮克級。利用SMARTer技術只需單管、單酶即可完成逆轉錄,無需接頭連接,減少了樣品操作步驟,也極大降低了樣品損失,保留了原始信息,爲RNA-Seq提供了可靠的基礎。
2013年 Clontech公司就爲Fluidigm的C1單細胞全自動製備系統推出了SMARTer Ultra Low RNA Kit。當時也是能夠從C1捕獲的單細胞中產生mRNA-seq文庫,方便了研究。Fluidigm在C1平臺上檢驗了多款試劑盒,發現SMARTer cDNA合成是最可靠的方法之一
後來很多平臺也在使用SMARTer試劑(如WaferGen ICELL8 Single-Cell System),不過後來發現Smart-seq2的擴增效果優於SMARTer試劑盒,而且Smart-seq2技術比傳統的SMARTer方法能產生更長和更多的cDNA,在低表達量時,Smart-seq2比SMARTer的基因檢出率更高,結果更穩定
數據準備
library(scRNAseq)
sce.lawlor <- LawlorPancreasData()
sce.lawlor
# class: SingleCellExperiment
# dim: 26616 638
# metadata(0):
# assays(1): counts
# rownames(26616): ENSG00000229483 ENSG00000232849 ...
# ENSG00000251576 ENSG00000082898
# rowData names(0):
# colnames(638): 10th_C10_S104 10th_C11_S96 ...
# 9th-C96_S81 9th-C9_S13
# colData names(8): title age ... race Sex
# reducedDimNames(0):
# altExpNames(0):
ID轉換
library(AnnotationHub)
edb <- AnnotationHub()[["AH73881"]]
anno <- select(edb, keys=rownames(sce.lawlor), keytype="GENEID",
columns=c("SYMBOL", "SEQNAME"))
rowData(sce.lawlor) <- anno[match(rownames(sce.lawlor), anno[,1]),-1]
rowData(sce.lawlor)
# DataFrame with 26616 rows and 2 columns
# SYMBOL SEQNAME
# <character> <character>
# ENSG00000229483 LINC00362 13
# ENSG00000232849 LINC00363 13
# ENSG00000229558 SACS-AS1 13
# ENSG00000232977 LINC00327 13
# ENSG00000227893 LINC00352 13
# ... ... ...
# ENSG00000232746 LINC02022 3
# ENSG00000150867 PIP4K2A 10
# ENSG00000255021 AC093496.1 3
# ENSG00000251576 LINC01267 3
# ENSG00000082898 XPO1 2
2 質控
依然是備份一下,把unfiltered數據主要用在質控的探索上
unfiltered <- sce.lawlor
檢查是否有線粒體基因和批次信息
# 其中有MT基因
table(rowData(sce.lawlor)$SEQNAME=="MT")
#
# FALSE TRUE
# 25269 13
# 還有一些批次信息
table(sce.lawlor$`islet unos id`)
#
# ACCG268 ACCR015A ACEK420A ACEL337 ACHY057 ACIB065 ACIW009 ACJV399
# 136 57 45 103 39 57 93 108
進行質控
stats <- perCellQCMetrics(sce.lawlor,
subsets=list(Mito=which(rowData(sce.lawlor)$SEQNAME=="MT")))
qc <- quickPerCellQC(stats, percent_subsets="subsets_Mito_percent",
batch=sce.lawlor$`islet unos id`)
# 過濾了34個細胞
table(qc$discard)
#
# FALSE TRUE
# 604 34
sce.lawlor <- sce.lawlor[,!qc$discard]
看看過濾掉多少
colSums(as.matrix(qc))
# low_lib_size low_n_features high_subsets_Mito_percent discard
# 9 5 25 34
作圖看一下
colData(unfiltered) <- cbind(colData(unfiltered), stats)
unfiltered$discard <- qc$discard
gridExtra::grid.arrange(
plotColData(unfiltered, x="islet unos id", y="sum", colour_by="discard") +
scale_y_log10() + ggtitle("Total count") +
theme(axis.text.x = element_text(angle = 90)),
plotColData(unfiltered, x="islet unos id", y="detected",
colour_by="discard") + scale_y_log10() + ggtitle("Detected features") +
theme(axis.text.x = element_text(angle = 90)),
plotColData(unfiltered, x="islet unos id", y="subsets_Mito_percent",
colour_by="discard") + ggtitle("Mito percent") +
theme(axis.text.x = element_text(angle = 90)),
ncol=2
)
看一下文庫大小和線粒體佔比的關係
plotColData(unfiltered, x="sum", y="subsets_Mito_percent",
colour_by="discard") + scale_x_log10()
最後把過濾條件應用在原數據
sce.lawlor <- sce.lawlor[,!qc$discard]
3 歸一化
繼續使用去卷積方法
library(scran)
set.seed(1000)
clusters <- quickCluster(sce.lawlor)
sce.lawlor <- computeSumFactors(sce.lawlor, clusters=clusters)
sce.lawlor <- logNormCounts(sce.lawlor)
summary(sizeFactors(sce.lawlor))
# Min. 1st Qu. Median Mean 3rd Qu. Max.
# 0.2955 0.7807 0.9633 1.0000 1.1820 2.6287
4 找高變異基因
這裏沒有ERCC也沒有UMI,所以就用最基礎的方法構建模型:modelGeneVar
不過還是要指定批次信息
dec.lawlor <- modelGeneVar(sce.lawlor, block=sce.lawlor$`islet unos id`)
chosen.genes <- getTopHVGs(dec.lawlor, n=2000)
5 【嘗試】矯正批次
這裏寫“嘗試”是因爲這裏有一個問題:細胞總數不多,才600個,但批次的數量很多,所以歸到單獨的批次上細胞數就很少。這時如果繼續矯正批次,不知道會不會抹除一些真實的生物學特性。
歸根結底,還是一個技術噪音與生物因素之間的取捨問題
table(sce.lawlor$`islet unos id`)
#
# ACCG268 ACCR015A ACEK420A ACEL337 ACHY057 ACIB065 ACIW009 ACJV399
# 136 57 45 103 39 57 93 108
所以可以嘗試一下:
library(batchelor)
set.seed(1001010)
merged.lawlor <- fastMNN(sce.lawlor, subset.row=chosen.genes,
batch=sce.lawlor$`islet unos id`)
metadata(merged.lawlor)$merge.info$lost.var
關於這個結果:lost.var
,值越大表示丟失的真實生物異質性越多
- It contains a matrix of the variance lost in each batch (column) at each merge step (row).
- Large proportions of lost variance (>10%) suggest that correction is removing genuine biological heterogeneity.
看到的確有損失生物異質性的可能性,那麼就先放棄這個計劃,直接進行下面的降維
5 降維聚類
降維
library(BiocSingular)
set.seed(101011001)
sce.lawlor <- runPCA(sce.lawlor, subset_row=chosen.genes, ncomponents=25)
sce.lawlor <- runTSNE(sce.lawlor, dimred="PCA")
聚類
snn.gr <- buildSNNGraph(sce.lawlor, use.dimred="PCA")
colLabels(sce.lawlor) <- factor(igraph::cluster_walktrap(snn.gr)$membership)
看分羣與細胞類型之間
tab <- table(colLabels(sce.lawlor), sce.lawlor$`cell type`)
library(pheatmap)
pheatmap(log10(tab+10), color=viridis::viridis(100))
看分羣與批次之間
tab2 <- table(colLabels(sce.lawlor), sce.lawlor$`islet unos id`)
library(pheatmap)
pheatmap(log10(tab2+10), color=viridis::viridis(100))
最後看看批次效應
gridExtra::grid.arrange(
plotTSNE(sce.lawlor, colour_by="label"),
plotTSNE(sce.lawlor, colour_by="islet unos id"),
ncol=2
)
歡迎關注我們的公衆號~_~
我們是兩個農轉生信的小碩,打造生信星球,想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或發送郵件到[email protected]