單細胞轉錄組數據挖掘推薦

數據挖掘推薦

單細胞轉錄組測序(Single-cell RNA Sequencing )通過在單個細胞水平上進行測序,解決了用組織樣本無法獲得不同細胞間的異質性信息或樣本量太少無法進行常規測序的難題,爲科學家研究動植物單個細胞的行爲、機制等提供了新的方向,爲我們理解遺傳、發育、疾病機理等提供了新的研究工具。針對課題的數據挖掘需求,對於信息分析結果給出以下建議:

1、細胞分類與定義
1.1 聚類與分類的定義

聚類(根據距離矩陣)是將相似的事物聚集在一起,而將不相似的事物劃分爲不同的類別的過程。和分類的差別是,聚類往往是一種無監督的方式,分類需要從樣本中學習分類的規則進行分類。即分類是我們已經知道了事物的類型,提取相關特徵進行分類,而聚類僅僅是將相似的事物聚集在一起。

1.2 聚類方法

首先關注的是細胞聚類的結果,即應用非監督聚類算法的細胞分羣。10X genomics官網提供的Cell Ranger結果中採用Graph-based和K-means兩種細胞分羣結果,可以滿足大部分樣本類型的sc-RNA數據探索與分析。我們的結果主要基於Cell Ranger提供的算法來做分析,並提供10X單細胞數據探索交互軟件:Loupe Cell Browser的使用說明文檔,方面老師以交互進行數據探索分析。隨着單細胞轉錄組測序技術的發展,更多的聚類算法與相應的軟件包被開發出來,如果Cell Ranger的結果不太符合實驗預期,我們的高級分析部分可嘗試採用Seurat、SC3、等軟件包提供的算法再次進行細胞分羣。

對於多樣本單細胞整合分析(integrative single-cell analysis),可嘗試採用Seurat-CCA方法進行分析,提取共有數據結構來進行降維。目前sc-RNA一個技術難點是在多個樣本整合分析時需要考慮批次效應(batch effect),除了Seurat之外,其它工具Scran和Scrone也可以用來糾正批次效應。但是,批次矯正會帶來假陽性的問題,所以針對樣本採用何種糾正工具需要非常謹慎。

1.3 細胞定義:

目前細胞定義的研究限於技術發展還是存在一定主觀性。細胞定義的原則掌握三點:

第一,細胞定義的關鍵在於:differentially expressed marker genes,其中涉及差異和marker兩個因素。Maker Cell Type Genes一般是在該研究領域經研究公認的能夠鑑定細胞類型的基因。差異是指此亞羣細胞與其他羣相比,存在顯著差異的基因。

第二,不管何種細胞聚類方法,以能夠定義細胞類型的聚類方法爲優。推薦優選seurat聚類結果進行分析。

第三,細胞定義先大類後小類,先將主要細胞羣劃分出來,比如T細胞、B細胞,再在相關細胞羣中細分細胞小類,例如在T細胞羣中細分Naive、Memory等,也可對某一大類細胞進行再分羣,細化細胞亞羣。

基於以上三點,推薦從兩個方面入手進行細胞定義:一是在差異基因結果中篩選marker基因,二是從marker基因入手,定位其所在主要細胞羣。

總之,目前細胞定義仍然是單細胞轉錄組數據分析中的一個挑戰,需要彙總marker基因,結合差異與marker基因,對不同細胞聚類結果進行定義,循環往復,直至得到最優的細胞定義結果。目前已有相關的R包如SingleR可以爲細胞羣定義提供參考,它通過每個cluster與已知細胞類型的表達譜的相似性來定義細胞類型。

2 擬時分析

擬時分析適用於發育生物學中的發育軌跡研究,或者腫瘤微環境中免疫細胞狀態的變化研究等。擬時分析推薦在細胞定義完成的基礎上進行,有自己預設的起點、終點或者分化軌跡。

基於Seurat分析的結果採用monecle2進行細胞軌跡推斷分析(又稱擬時(pseudotime)分析),可以推斷出發育過程細胞的分化軌跡或細胞亞型的演化過程,在發育相關研究中使用頻率較高。主要基於關鍵基因的表達模式,在擬時間中對單個細胞進行排序,模擬出細胞隨擬時間發展發育過程的動態變化。

擬時(pseudotime)分析,又稱細胞軌跡(cell trajectory)分析,通過擬時分析可以推斷出發育過程細胞的分化軌跡或細胞亞型的演化過程,在發育相關研究中使用頻率較高。主要基於關鍵基因的表達模式,在擬時間中對單個細胞進行排序,模擬出細胞隨擬時間發展發育過程的動態變化。monocle是一款常用的擬時分析軟件,其計算細胞的相關性得到最小生成樹,找到最小路徑,然後把其它的所有數據點投射到最小路徑,最終得到細胞分化軌跡圖的算法。

3 數據可視化

我們提供10X單細胞數據探索交互軟件: Loupe Cell Browser的使用說明文檔,方便老師對數據進行可視化以及相關的分析,Cellranger結果可以直接打開查看。目前sc-RNA-seq數據可視化除了Loupe Cell Browser之外,主要是基於R語言生態的seurat,monocle,ggplot2等包。

流形學習方法的研究目的是爲了探索數據集的內部結構或內在規律。流形學習可以從高維非線性數據中探測出其本質特徵,通過局部結構學習可以將高維數據的局部幾何結構信息在低維空間儘可能地保留下來。由於sc-RNA-sequening數據高緯度、稀疏性的特點,在數據分析中常用到流形學習算法來做數據可視化展示,經典的是t-SNE算法。目前學術界提出一種新的流形學習算法:uniform manifold approximation and projection (UMAP),採用非線性降維算法,與t-SNE方法相比,UMAP的細胞分羣效果更爲清晰顯著,對多分支的細胞軌跡展示也更爲清晰。

此外,如果能夠定義出細胞類型,結合不同細胞類型根據相互作用關係receptor-ligand,可以進行受體-配體分析,繪製網絡圖。單細胞轉錄組在遺傳、發育、疾病機理研究中應用越來越廣泛,我們願意與老師一起探索單細胞水平上的生命奧祕。

1. Lun AT, McCarthy DJ, Marioni JC. A step-by-step workflow for low-level analysis of single-cell RNA-seq data. Version 1. F1000Res. 2016 Aug 31;5:2122.

2. Risso D, Ngai J, Speed TP, Dudoit S. Normalization of RNA-seq data using

factor analysis of control genes or samples. Nat Biotechnol. 2014 Sep;32(9):896-902.

3. Xiaojie Qiu, Qi Mao, Ying Tang, Li Wang, Raghav Chawla, Hannah Pliner, Cole Trapnell. Reversed graph embedding resolves complex single-cell trajectories. Nature Methods volume 14, pages 979–982 (2017).

4. Manu Setty, Michelle D Tadmor, Shlomit Reich-Zeliger, Omer Angel, Tomer Meir Salame, Pooja Kathail, Kristy Choi, Sean Bendall, Nir Friedman and Dana Pe'er. Wishbone identifies bifurcating developmental trajectories from single-cell data. Nature Biotechnology volume 34, pages 637–645 (2016)

5. Gioele La Manno, Ruslan Soldatov, Amit Zeisel, Emelie Braun, Hannah Hochgerner, Viktor Petukhov, Katja Lidschreiber, Maria E. Kastriti, Peter Lönnerberg, Alessandro Furlan, Jean Fan, Lars E. Borm, Zehua Liu, David van Bruggen, Jimin Guo, Xiaoling He, Roger Barker, Erik Sundström, Gonçalo Castelo-Branco, Patrick Cramer, Igor Adameyko, Sten Linnarsson and Peter V. Kharchenko. RNA velocity of single cells. Nature volume 560, pages 494–498 (2018).

6. Etienne Becht, Leland McInnes, John Healy, Charles-Antoine Dutertre, Immanuel W H Kwok, Lai Guan Ng, Florent Ginhoux and Evan W Newell. Dimensionality reduction for visualizing single-cell data using UMAP. Nature Biotechnology volume 37, pages 38–44 (2019).

7. V ladimir Yu Kiselev, Kristina Kirschner, Michael T Schaub, Tallulah Andrews, Andrew Yiu, Tamir Chandra, Kedar N Natarajan, Wolf Reik, Mauricio Barahona, Anthony R Green & Martin Hemberg. SC3 - consensus clustering of single-cell RNA-Seq data. Nature Methods volume 14, pages 483–486 (2017).

8. Daniel A. Skelly, Galen T. Squiers, Micheal A. McLellan, Mohan T. Bolisetty, Paul Robson, Nadia A. Rosenthal, Alexander R. Pinto. Single-cell transcriptional profiling reveals cellular diversity and inter-communicaiton in the mouse heart. Volume 22, Issue 3, pages 600-610 (2018).

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章