單細胞交響樂24-實戰七 SMARTer 胰腺細胞

劉小澤寫於2020.7.20
爲何取名叫“交響樂”？因爲單細胞分析就像一個大樂團，需要各個流程的協同配合
單細胞交響樂1-常用的數據結構SingleCellExperiment
單細胞交響樂2-scRNAseq從實驗到下游簡介
 單細胞交響樂3-細胞質控
 單細胞交響樂4-歸一化
 單細胞交響樂5-挑選高變化基因
 單細胞交響樂6-降維
 單細胞交響樂7-聚類分羣
 單細胞交響樂8-marker基因檢測
 單細胞交響樂9-細胞類型註釋
 單細胞交響樂9-細胞類型註釋
 單細胞交響樂10-數據集整合後的批次矯正
 單細胞交響樂11-多樣本間差異分析
 單細胞交響樂12-檢測Doublet
單細胞交響樂13-細胞週期推斷
 單細胞交響樂14-細胞軌跡推斷
 單細胞交響樂15-scRNA與蛋白丰度信息結合
 單細胞交響樂16-處理大型數據
 單細胞交響樂17-不同單細胞R包的數據格式相互轉換
 單細胞交響樂18-實戰一 Smart-seq2
單細胞交響樂19-實戰二 STRT-Seq
單細胞交響樂20-實戰三 10X 未過濾的PBMC數據
 單細胞交響樂21-實戰三批量處理並整合多個10X PBMC數據
 單細胞交響樂22-實戰五 CEL-seq2
單細胞交響樂23-實戰六 CEL-seq

1 前言

前面的種種都是作爲知識儲備，但是不實戰還是記不住前面的知識
這是第七個實戰練習

這次使用的數據是：Lawlor et al. (2017) 中的不同人類供體的胰腺細胞

SMARTer其實不是個像Fluidigm、10X一樣的製備系統，它是一個試劑盒。SMART技術是Clontech（Takara旗下全資子公司）的專利技術，2009年升級爲SAMRTer技術後，採用更靈敏的SMARTer Oligo和高效的SMARTScribe RT進行逆轉錄，使其靈敏度提高至皮克級。利用SMARTer技術只需單管、單酶即可完成逆轉錄，無需接頭連接，減少了樣品操作步驟，也極大降低了樣品損失，保留了原始信息，爲RNA-Seq提供了可靠的基礎。

2013年 Clontech公司就爲Fluidigm的C1單細胞全自動製備系統推出了SMARTer Ultra Low RNA Kit。當時也是能夠從C1捕獲的單細胞中產生mRNA-seq文庫，方便了研究。Fluidigm在C1平臺上檢驗了多款試劑盒，發現SMARTer cDNA合成是最可靠的方法之一

參考：http://www.ebiotrade.com/newsf/2013-9/20139493414227.htm

後來很多平臺也在使用SMARTer試劑（如WaferGen ICELL8 Single-Cell System），不過後來發現Smart-seq2的擴增效果優於SMARTer試劑盒，而且Smart-seq2技術比傳統的SMARTer方法能產生更長和更多的cDNA，在低表達量時，Smart-seq2比SMARTer的基因檢出率更高，結果更穩定

數據準備

library(scRNAseq)
sce.lawlor <- LawlorPancreasData()
sce.lawlor
# class: SingleCellExperiment 
# dim: 26616 638 
# metadata(0):
#   assays(1): counts
# rownames(26616): ENSG00000229483 ENSG00000232849 ...
# ENSG00000251576 ENSG00000082898
# rowData names(0):
#   colnames(638): 10th_C10_S104 10th_C11_S96 ...
# 9th-C96_S81 9th-C9_S13
# colData names(8): title age ... race Sex
# reducedDimNames(0):
#   altExpNames(0):

ID轉換

library(AnnotationHub)
edb <- AnnotationHub()[["AH73881"]]
anno <- select(edb, keys=rownames(sce.lawlor), keytype="GENEID", 
    columns=c("SYMBOL", "SEQNAME"))
rowData(sce.lawlor) <- anno[match(rownames(sce.lawlor), anno[,1]),-1]
rowData(sce.lawlor)
# DataFrame with 26616 rows and 2 columns
# SYMBOL     SEQNAME
# <character> <character>
#   ENSG00000229483   LINC00362          13
# ENSG00000232849   LINC00363          13
# ENSG00000229558    SACS-AS1          13
# ENSG00000232977   LINC00327          13
# ENSG00000227893   LINC00352          13
# ...                     ...         ...
# ENSG00000232746   LINC02022           3
# ENSG00000150867     PIP4K2A          10
# ENSG00000255021  AC093496.1           3
# ENSG00000251576   LINC01267           3
# ENSG00000082898        XPO1           2

2 質控

依然是備份一下，把unfiltered數據主要用在質控的探索上

unfiltered <- sce.lawlor

檢查是否有線粒體基因和批次信息

# 其中有MT基因
table(rowData(sce.lawlor)$SEQNAME=="MT")
# 
# FALSE  TRUE 
# 25269    13 

# 還有一些批次信息
table(sce.lawlor$`islet unos id`)
# 
# ACCG268 ACCR015A ACEK420A  ACEL337  ACHY057  ACIB065  ACIW009  ACJV399 
# 136       57       45      103       39       57       93      108

進行質控

stats <- perCellQCMetrics(sce.lawlor, 
    subsets=list(Mito=which(rowData(sce.lawlor)$SEQNAME=="MT")))
qc <- quickPerCellQC(stats, percent_subsets="subsets_Mito_percent",
    batch=sce.lawlor$`islet unos id`)
# 過濾了34個細胞
table(qc$discard)
# 
# FALSE  TRUE 
# 604    34 

sce.lawlor <- sce.lawlor[,!qc$discard]

看看過濾掉多少

colSums(as.matrix(qc))
# low_lib_size            low_n_features high_subsets_Mito_percent                   discard 
# 9                         5                        25                        34

作圖看一下

colData(unfiltered) <- cbind(colData(unfiltered), stats)
unfiltered$discard <- qc$discard

gridExtra::grid.arrange(
    plotColData(unfiltered, x="islet unos id", y="sum", colour_by="discard") +
        scale_y_log10() + ggtitle("Total count") +
        theme(axis.text.x = element_text(angle = 90)),
    plotColData(unfiltered, x="islet unos id", y="detected", 
        colour_by="discard") + scale_y_log10() + ggtitle("Detected features") +
        theme(axis.text.x = element_text(angle = 90)), 
    plotColData(unfiltered, x="islet unos id", y="subsets_Mito_percent",
        colour_by="discard") + ggtitle("Mito percent") +
        theme(axis.text.x = element_text(angle = 90)),
    ncol=2
)

看一下文庫大小和線粒體佔比的關係

plotColData(unfiltered, x="sum", y="subsets_Mito_percent",
    colour_by="discard") + scale_x_log10()

最後把過濾條件應用在原數據

sce.lawlor <- sce.lawlor[,!qc$discard]

3 歸一化

繼續使用去卷積方法

library(scran)
set.seed(1000)
clusters <- quickCluster(sce.lawlor)
sce.lawlor <- computeSumFactors(sce.lawlor, clusters=clusters)
sce.lawlor <- logNormCounts(sce.lawlor)

summary(sizeFactors(sce.lawlor))
# Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
# 0.2955  0.7807  0.9633  1.0000  1.1820  2.6287

4 找高變異基因

這裏沒有ERCC也沒有UMI，所以就用最基礎的方法構建模型：modelGeneVar

不過還是要指定批次信息

dec.lawlor <- modelGeneVar(sce.lawlor, block=sce.lawlor$`islet unos id`)
chosen.genes <- getTopHVGs(dec.lawlor, n=2000)

5 【嘗試】矯正批次

這裏寫“嘗試”是因爲這裏有一個問題：細胞總數不多，才600個，但批次的數量很多，所以歸到單獨的批次上細胞數就很少。這時如果繼續矯正批次，不知道會不會抹除一些真實的生物學特性。

歸根結底，還是一個技術噪音與生物因素之間的取捨問題

table(sce.lawlor$`islet unos id`)
# 
# ACCG268 ACCR015A ACEK420A  ACEL337  ACHY057  ACIB065  ACIW009  ACJV399 
# 136       57       45      103       39       57       93      108

所以可以嘗試一下：

library(batchelor)
set.seed(1001010)
merged.lawlor <- fastMNN(sce.lawlor, subset.row=chosen.genes, 
                         batch=sce.lawlor$`islet unos id`)

metadata(merged.lawlor)$merge.info$lost.var

關於這個結果：lost.var ，值越大表示丟失的真實生物異質性越多

It contains a matrix of the variance lost in each batch (column) at each merge step (row).
Large proportions of lost variance (>10%) suggest that correction is removing genuine biological heterogeneity.

看到的確有損失生物異質性的可能性，那麼就先放棄這個計劃，直接進行下面的降維

5 降維聚類

降維

library(BiocSingular)
set.seed(101011001)
sce.lawlor <- runPCA(sce.lawlor, subset_row=chosen.genes, ncomponents=25)
sce.lawlor <- runTSNE(sce.lawlor, dimred="PCA")

聚類

snn.gr <- buildSNNGraph(sce.lawlor, use.dimred="PCA")
colLabels(sce.lawlor) <- factor(igraph::cluster_walktrap(snn.gr)$membership)

看分羣與細胞類型之間

tab <- table(colLabels(sce.lawlor), sce.lawlor$`cell type`)
library(pheatmap)
pheatmap(log10(tab+10), color=viridis::viridis(100))

看分羣與批次之間

tab2 <- table(colLabels(sce.lawlor), sce.lawlor$`islet unos id`)
library(pheatmap)
pheatmap(log10(tab2+10), color=viridis::viridis(100))

最後看看批次效應

gridExtra::grid.arrange(
    plotTSNE(sce.lawlor, colour_by="label"),
    plotTSNE(sce.lawlor, colour_by="islet unos id"),
    ncol=2
)

歡迎關注我們的公衆號～_～　　
我們是兩個農轉生信的小碩，打造生信星球，想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或發送郵件到[email protected]