單細胞交響樂30-實戰十三 10X 小鼠乳腺上皮細胞

劉小澤寫於2020.7.21
爲何取名叫“交響樂”？因爲單細胞分析就像一個大樂團，需要各個流程的協同配合
單細胞交響樂1-常用的數據結構SingleCellExperiment
單細胞交響樂2-scRNAseq從實驗到下游簡介
 單細胞交響樂3-細胞質控
 單細胞交響樂4-歸一化
 單細胞交響樂5-挑選高變化基因
 單細胞交響樂6-降維
 單細胞交響樂7-聚類分羣
 單細胞交響樂8-marker基因檢測
 單細胞交響樂9-細胞類型註釋
 單細胞交響樂9-細胞類型註釋
 單細胞交響樂10-數據集整合後的批次矯正
 單細胞交響樂11-多樣本間差異分析
 單細胞交響樂12-檢測Doublet
單細胞交響樂13-細胞週期推斷
 單細胞交響樂14-細胞軌跡推斷
 單細胞交響樂15-scRNA與蛋白丰度信息結合
 單細胞交響樂16-處理大型數據
 單細胞交響樂17-不同單細胞R包的數據格式相互轉換
 單細胞交響樂18-實戰一 Smart-seq2
單細胞交響樂19-實戰二 STRT-Seq
單細胞交響樂20-實戰三 10X 未過濾的PBMC數據
 單細胞交響樂21-實戰三批量處理並整合多個10X PBMC數據
 單細胞交響樂22-實戰五 CEL-seq2
單細胞交響樂23-實戰六 CEL-seq
單細胞交響樂24-實戰七 SMARTer 胰腺細胞
 單細胞交響樂25-實戰八 Smart-seq2 胰腺細胞
 單細胞交響樂26-實戰九胰腺細胞數據整合
 單細胞交響樂27-實戰十 CEL-seq-小鼠造血幹細胞
 單細胞交響樂28-實戰十一 Smart-seq2-小鼠造血幹細胞
 單細胞交響樂29-實戰十二 10X 小鼠嵌合體胚胎

1 前言

前面的種種都是作爲知識儲備，但是不實戰還是記不住前面的知識
這是第十三個實戰練習

數據來自Bach et al. (2017)，使用的是10X的妊娠期小鼠乳腺上皮細胞

數據準備

library(scRNAseq)
sce.mam <- BachMammaryData(samples="G_1")
sce.mam
# class: SingleCellExperiment 
# dim: 27998 2915 
# metadata(0):
#   assays(1): counts
# rownames: NULL
# rowData names(2): Ensembl Symbol
# colnames: NULL
# colData names(3): Barcode Sample Condition
# reducedDimNames(0):
#   altExpNames(0):

數據初探

# 樣本信息
sapply(names(colData(sce.mam)), function(x) head(colData(sce.mam)[,x]))
# Barcode              Sample Condition  
# [1,] "AAACCTGAGGATGCGT-1" "G_1"  "Gestation"
# [2,] "AAACCTGGTAGTAGTA-1" "G_1"  "Gestation"
# [3,] "AAACCTGTCAGCATGT-1" "G_1"  "Gestation"
# [4,] "AAACCTGTCGTCCGTT-1" "G_1"  "Gestation"
# [5,] "AAACGGGCACGAAATA-1" "G_1"  "Gestation"
# [6,] "AAACGGGCAGACGCTC-1" "G_1"  "Gestation"

ID轉換

依然是整合行名 + 添加染色體信息

library(scater)
rownames(sce.mam) <- uniquifyFeatureNames(
    rowData(sce.mam)$Ensembl, rowData(sce.mam)$Symbol)

library(AnnotationHub)
ens.mm.v97 <- AnnotationHub()[["AH73905"]]
rowData(sce.mam)$SEQNAME <- mapIds(ens.mm.v97, keys=rowData(sce.mam)$Ensembl,
    keytype="GENEID", column="SEQNAME")

# 總共有13個線粒體基因
sum(grepl("MT",rowData(sce.mam)$SEQNAME))
# [1] 13

2 質控

依然是備份一下，把unfiltered數據主要用在質控的探索上

unfiltered <- sce.mam

使用線粒體信息進行過濾

is.mito <- rowData(sce.mam)$SEQNAME == "MT"
stats <- perCellQCMetrics(sce.mam, subsets=list(Mito=which(is.mito)))
qc <- quickPerCellQC(stats, percent_subsets="subsets_Mito_percent")

colSums(as.matrix(qc))
##              low_lib_size            low_n_features high_subsets_Mito_percent 
##                         0                         0                       143 
##                   discard 
##                       143

作圖

colData(unfiltered) <- cbind(colData(unfiltered), stats)
unfiltered$discard <- qc$discard

gridExtra::grid.arrange(
    plotColData(unfiltered, y="sum", colour_by="discard") + 
        scale_y_log10() + ggtitle("Total count"),
    plotColData(unfiltered, y="detected", colour_by="discard") + 
        scale_y_log10() + ggtitle("Detected features"),
    plotColData(unfiltered, y="subsets_Mito_percent", 
        colour_by="discard") + ggtitle("Mito percent"),
    ncol=3
)

再看看線粒體含量與文庫大小的關係

plotColData(unfiltered, x="sum", y="subsets_Mito_percent", 
    colour_by="discard") + scale_x_log10()

最後過濾

dim(unfiltered);dim(sce.mam)
# [1] 27998  2915
# [1] 27998  2772

3 歸一化

使用去卷積的方法

library(scran)
set.seed(101000110)
clusters <- quickCluster(sce.mam)
sce.mam <- computeSumFactors(sce.mam, clusters=clusters)
sce.mam <- logNormCounts(sce.mam)

4 找高變異基因

這裏由於是10X的數據，所以會有UMI信息，因此可以用基於泊松分佈的模型構建方法

set.seed(00010101)
dec.mam <- modelGeneVarByPoisson(sce.mam)
top.mam <- getTopHVGs(dec.mam, prop=0.1)

最後做個圖

plot(dec.mam$mean, dec.mam$total, pch=16, cex=0.5,
    xlab="Mean of log-expression", ylab="Variance of log-expression")
curfit <- metadata(dec.mam)
curve(curfit$trend(x), col='dodgerblue', add=TRUE, lwd=2)

5 降維聚類

降維

library(BiocSingular)
set.seed(101010011)
sce.mam <- denoisePCA(sce.mam, technical=dec.mam, subset.row=top.mam)
sce.mam <- runTSNE(sce.mam, dimred="PCA")

# 檢查PC的數量
ncol(reducedDim(sce.mam, "PCA"))
## [1] 15

聚類

有一個很重要的參數是k ，含義是：the number of nearest neighbors used to construct the graph。如果k設置越大，得到的圖之間聯通程度越高，cluster也越大。因此這個參數也是可以不斷嘗試的

我們這裏由於細胞數量比較多，所以設置的k就比較大，得到的cluster就少而大

snn.gr <- buildSNNGraph(sce.mam, use.dimred="PCA", k=25)
colLabels(sce.mam) <- factor(igraph::cluster_walktrap(snn.gr)$membership)

table(colLabels(sce.mam))
## 
##   1   2   3   4   5   6   7   8   9  10 
## 550 799 716 452  24  84  52  39  32  24

最後作圖

plotTSNE(sce.mam, colour_by="label")

歡迎關注我們的公衆號～_～　　
我們是兩個農轉生信的小碩，打造生信星球，想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或發送郵件到[email protected]

單細胞交響樂30-實戰十三 10X 小鼠乳腺上皮細胞

1 前言

數據準備

數據初探

ID轉換

2 質控

依然是備份一下，把unfiltered數據主要用在質控的探索上

最後過濾

3 歸一化

4 找高變異基因

5 降維聚類

降維

聚類

致各位生信小夥伴

富集分析圈圈圖

如何用Conda安裝GATK？

bedtools的簡單操作版本

生信星球小練習—批量讀取10X數據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結