單細胞交響樂17-不同單細胞R包的數據格式相互轉換

劉小澤寫於2020.7.18
爲何取名叫“交響樂”？因爲單細胞分析就像一個大樂團，需要各個流程的協同配合
單細胞交響樂1-常用的數據結構SingleCellExperiment
單細胞交響樂2-scRNAseq從實驗到下游簡介
 單細胞交響樂3-細胞質控
 單細胞交響樂4-歸一化
 單細胞交響樂5-挑選高變化基因
 單細胞交響樂6-降維
 單細胞交響樂7-聚類分羣
 單細胞交響樂8-marker基因檢測
 單細胞交響樂9-細胞類型註釋
 單細胞交響樂9-細胞類型註釋
 單細胞交響樂10-數據集整合後的批次矯正
 單細胞交響樂11-多樣本間差異分析
 單細胞交響樂12-檢測Doublet
單細胞交響樂13-細胞週期推斷
 單細胞交響樂14-細胞軌跡推斷
 單細胞交響樂15-scRNA與蛋白丰度信息結合
 單細胞交響樂16-處理大型數據

1 前言

這部分內容是來自Seurat：https://satijalab.org/seurat/v3.1/conversion_vignette.html

單細胞數據格式目前有這麼幾大派：

Bioconductor主導的SingleCellExperiment數據格式：例如scran、scater、monocle（儘管它的對象不直接使用SingleCellExperiment，但靈感來源於SingleCellExperiment，並且操作也是類似的）
Seurat：SeuratObject格式
scanpy：AnnData格式

這麼一來，很多分析流程就被固定在某個包中了，比如使用Seurat會一用到底，也不會去學習scater或其他R包了，但也許就錯過了其他R包好用的一些功能（比如我感覺scater的uniquifyFeatureNames就很好用）

既然有需求，就有開發者添加功能，這裏Davis McCarthy 和Alex Wolf就爲Seurat添加了和其他數據類型轉換的函數

2 Seurat與SingleCellExperiment的相互轉換

library(scater)
# devtools::install_github(repo = "satijalab/seurat", ref = "loom")
library(loomR)
library(Seurat)
library(patchwork)

2.1 Seurat轉SingleCellExperiment

# 使用Seurat內置數據
data("pbmc_small")
> pbmc_small
An object of class Seurat 
230 features across 80 samples within 1 assay 
Active assay: RNA (230 features)
 2 dimensional reductions calculated: pca, tsne

# 一個函數即可
pbmc.sce <- as.SingleCellExperiment(pbmc_small)
> pbmc.sce
class: SingleCellExperiment 
dim: 230 80 
metadata(0):
assays(2): counts logcounts
rownames(230): MS4A1 CD79B ... SPON2 S100B
rowData names(5): vst.mean vst.variance
  vst.variance.expected
  vst.variance.standardized vst.variable
colnames(80): ATGCCAGAACGACT CATGGCCTGTGCAT ...
  GGAACACTTCAGAC CTTGATTGATCTTC
colData names(8): orig.ident nCount_RNA ...
  RNA_snn_res.1 ident
reducedDimNames(2): PCA TSNE
spikeNames(0):
altExpNames(0):

# 接下來就是scater的操作了
p1 <- plotExpression(pbmc.sce, features = "MS4A1", x = "ident") + theme(axis.text.x = element_text(angle = 45, 
    hjust = 1))
p2 <- plotPCA(pbmc.sce, colour_by = "ident")
p1 + p2

2.2 SingleCellExperiment轉Seurat

# 導入sce對象（https://scrnaseq-public-datasets.s3.amazonaws.com/scater-objects/manno_human.rds）
manno <- readRDS(file = "manno_human.rds")
> manno
class: SingleCellExperiment 
dim: 20560 4029 
metadata(0):
assays(2): counts logcounts
rownames(20560): 'MARC1' 'MARC2' ... ZZEF1 ZZZ3
rowData names(10): feature_symbol
  is_feature_control ... total_counts
  log10_total_counts
colnames(4029): 1772122_301_C02 1772122_180_E05
  ... 1772116-063_G02 1772099-259_H03
colData names(34): Species cell_type1 ...
  pct_counts_ERCC is_cell_control
reducedDimNames(0):
altExpNames(0):

manno <- runPCA(manno)
# 轉爲seurat對象
manno.seurat <- as.Seurat(manno, counts = "counts", data = "logcounts")

# 看下這個函數
# as.Seurat(
#     x,
#     counts = "counts",
#     data = "logcounts",
#     assay = "RNA",
#     project = "SingleCellExperiment",
#     ...
# )
# 既然有默認參數，因此直接按下面這麼寫就可以：
manno.seurat <- as.Seurat(manno)

> manno.seurat
An object of class Seurat 
20560 features across 4029 samples within 1 assay 
Active assay: RNA (20560 features)
 1 dimensional reduction calculated: PCA

Idents(manno.seurat) <- "cell_type1"
p1 <- DimPlot(manno.seurat, reduction = "PCA", group.by = "Source") + NoLegend()
p2 <- RidgePlot(manno.seurat, features = "ACTB", group.by = "Source")
p1 + p2

3 Seurat與loom的相互轉換

還記得上次在單細胞交響樂16-處理大型數據中說到：處理大型數據遇到內存不足時，可以使用這個HDF5ArrayR包（類似的還有 bigmemory, matter），它會將底層數據做成HDF5格式，用硬盤空間來存儲數據，必要時再調用一部分數據到內存。loom格式就是處理HDF5使用的

3.1 Seurat轉爲loom

pbmc.loom <- as.loom(pbmc, filename = "pbmc3k.loom", verbose = FALSE)
pbmc.loom
## Class: loom
## Filename: /__w/1/s/output/pbmc3k.loom
## Access type: H5F_ACC_RDWR
## Attributes: version, chunks, LOOM_SPEC_VERSION, assay, last_modified
## Listing:
##        name    obj_type dataset.dims dataset.type_class
##   col_attrs   H5I_GROUP         <NA>               <NA>
##  col_graphs   H5I_GROUP         <NA>               <NA>
##      layers   H5I_GROUP         <NA>               <NA>
##      matrix H5I_DATASET 2638 x 13714          H5T_FLOAT
##   row_attrs   H5I_GROUP         <NA>               <NA>
##  row_graphs   H5I_GROUP         <NA>               <NA>

# 最後使用完要記得關上loom對象
pbmc.loom$close_all()

3.2 loom轉爲Seurat

首先讀取：用 loomR 的connect

l6.immune <- connect(filename = "../data/l6_r1_immune_cells.loom", mode = "r")
l6.immune
## Class: loom
## Filename: /__w/1/s/data/l6_r1_immune_cells.loom
## Access type: H5F_ACC_RDONLY
## Attributes: CreationDate, last_modified
## Listing:
##        name    obj_type  dataset.dims dataset.type_class
##   col_attrs   H5I_GROUP          <NA>               <NA>
##  col_graphs   H5I_GROUP          <NA>               <NA>
##      layers   H5I_GROUP          <NA>               <NA>
##      matrix H5I_DATASET 14908 x 27998          H5T_FLOAT
##   row_attrs   H5I_GROUP          <NA>               <NA>
##  row_graphs   H5I_GROUP          <NA>               <NA>

然後轉換

l6.seurat <- as.Seurat(l6.immune)
VlnPlot(l6.seurat, features = c("Sparc", "Ftl1", "Junb", "Ccl4"), ncol = 2, pt.size = 0.1)

最後處理完，記得關閉loom文件

l6.immune$close_all()

3.3 補充

如果使用Seurat V2，還有一個自帶的函數Convert

data("pbmc_small")
pbmc_small
pfile <- Convert(from = pbmc_small, to = "loom", filename = "pbmc_small.loom", 
    display.progress = FALSE)
pfile
## Class: loom
## Filename: /home/paul/Documents/Satija/pbmc_small.loom
## Access type: H5F_ACC_RDWR
## Attributes: version, chunks
## Listing:
##        name    obj_type dataset.dims dataset.type_class
##   col_attrs   H5I_GROUP         <NA>               <NA>
##  col_graphs   H5I_GROUP         <NA>               <NA>
##      layers   H5I_GROUP         <NA>               <NA>
##      matrix H5I_DATASET     80 x 230          H5T_FLOAT
##   row_attrs   H5I_GROUP         <NA>               <NA>
##  row_graphs   H5I_GROUP         <NA>               <NA>

4 Scanpy轉Seurat

Seurat有一個函數ReadH5AD可以讀取AnnData的H5AD文件

pbmc3k <- ReadH5AD(file = "pbmc3k.h5ad")
# 利用Seurat操作
Idents(pbmc3k) <- "louvain"
p1 <- DimPlot(pbmc3k, label = TRUE)
p2 <- VlnPlot(pbmc3k, features = c("CST3", "NKG7", "PPBP"), combine = FALSE)
wrap_plots(c(list(p1), p2), ncol = 2) & NoLegend()

目前還不能直接將Seurat寫成H5AD文件，因此不能之間將Seurat轉爲Scanpy；但是可以將loom文件作爲橋樑實現Seurat轉Scanpy，例如Scanpy 有一個函數scanpy.read_loom()

參考：https://scanpy.readthedocs.io/en/stable/api/scanpy.read_loom.html

歡迎關注我們的公衆號～_～　　
我們是兩個農轉生信的小碩，打造生信星球，想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或發送郵件到[email protected]

單細胞交響樂17-不同單細胞R包的數據格式相互轉換

1 前言

2 Seurat與SingleCellExperiment的相互轉換

2.1 Seurat轉SingleCellExperiment

2.2 SingleCellExperiment轉Seurat

3 Seurat與loom的相互轉換

3.1 Seurat轉爲loom

3.2 loom轉爲Seurat

首先讀取：用 loomR 的connect

然後轉換

最後處理完，記得關閉loom文件

3.3 補充

4 Scanpy轉Seurat

美團一面：項目中有 10000 個 if else 如何優化？想了半天，被問懵了！

京東面試：如何進行JVM調優？

Python 將PowerPoint (PPT/PPTX) 轉爲HTML

SQL優化-20231016

致各位生信小夥伴

富集分析圈圈圖

如何用Conda安裝GATK？

bedtools的簡單操作版本

生信星球小練習—批量讀取10X數據

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結