單細胞時代 || 網絡分析應用進展,機遇與挑戰

Network modeling of single-cell omics data: challenges, opportunities, and progresses

其實在遇到本文之前,我們已經寫就Network在單細胞轉錄組數據分析中的應用,也許這篇文章才最值得看一看。而,本文則屬於可看可不看的那種。

看到網絡分析的應用趨勢,小哥也在簡書抄完了網絡數據的統計分析:R語言實戰一書。

單細胞多組學技術正在以前所未有的速度促進方法的進步和生物學發現。基因調控網絡建模已被用於闡明生物過程和背後的複雜分子相互作用,但在單細胞組學數據建模中的應用遇到了獨特的挑戰和機遇。在這篇綜述中,我們討論了這些挑戰和機遇,並提供了網絡建模方法的最新發展概況,這些方法設計用於描述

  • 動態網絡
  • 細胞內網絡
  • 細胞間交互或通信網絡

最後,我們概述了在單細胞基因網絡建模的差距和對該領域的展望。

網絡建模長期以來被用作理解和解釋複雜生物系統的強大工具,網絡本身既是計算框架又是主要的數據類型。生物系統網絡描述爲節點和邊,節點代表生物實體如基因、蛋白質、代謝物,表型特徵,細胞,環境暴露,甚至腸道細菌;邊代表如regulator-effector連接節點之間的關係,統計相關性,物理結合,酶或代謝反應(圖1)。


隨着生物數據的數量和類型持續以指數速度增長,生物網絡的數量和類型也在增長,包括蛋白質-蛋白質相互作用網絡、代謝網絡、遺傳相互作用網絡、基因/轉錄調節網絡(GRNs)、細胞信號網絡。雖然不同的網絡模型根據其基本假設具有固有的優勢和侷限性,但它們都具有圖形化模型的共同特徵,即描述生物系統中的信息流,以幫助理解和解釋基本的生物過程。

在過去的幾十年裏,網絡建模被廣泛應用於幫助理解關鍵的生物過程和健康和疾病的調節。特別是,人類生理和病理生理學的巨大複雜性要求在系統水平上理解生物分子如何在單個細胞和組織內相互作用,細胞和組織之間如何相互作用以維持體內平衡,以及這些相互作用的干擾如何導致疾病。omnigenic disease模型指出,網絡中所有基因的相互作用都可能導致複雜疾病,該模型正日益被人們所認可和接受。這些概念框架完全符合網絡生物學,因此,在生物學的所有領域中,網絡建模方法的使用越來越多也就不足爲奇了。

例如,許多遺傳變異可以影響疾病,每一種變異都通過很小的影響使生物學解釋變得困難。這些複雜的遺傳效應可以通過它們在轉錄、信號網絡和生物途徑中的關係來更好地理解。我們的團隊和其他人已經利用網絡模型來解釋複雜疾病的遺傳原因。類似地,網絡可以用來了解與各種環境引起的疾病有關的分子級聯。例如,Chella Krishnan等人通過整合組織特異性GRNs的遺傳關聯,發現與非酒精性脂肪肝相關的大量遺傳變異影響多種生物途徑,包括脂質代謝、免疫系統、細胞週期、轉錄調節、胰島素信號、Notch信號和氧化磷酸化,這些途徑在肝臟和脂肪組織的GRNs中相互作用。

基於網絡拓撲結構,他們確定了疾病通路和亞網絡中心參與線粒體功能的關鍵調節因子。在另一項研究中,利用組織特異性GRNs對心血管疾病和2型糖尿病的遺傳風險進行網絡建模,揭示了共享的和疾病特異性的網絡和調節因子。格林等建造144組織/特異性網絡和使用這些網絡來預測和理解lineage-specific IL1B刺激的反應。

雖然基於網絡的方法促進了我們對複雜疾病的理解,但需要注意的是,大多數網絡方法和應用主要依賴於從bulk組織中獲得的組學數據。在組織水平上,已經開發了許多用於網絡建模的方法和算法,主要關注於預測組織內和組織間的GRNs,並具有合理的準確性。然而,肝臟的非實質細胞等組織是由包括庫普弗細胞、竇狀內皮細胞和肝細胞衛星細胞在內的異質細胞羣組成的,它們都具有與獨特的基因調控譜相關的獨特功能。考慮到組織的異質性,組織網絡主要代表了所有細胞羣的平均活動,這些細胞羣可以由最豐富的細胞類型所控制。因此,組織網絡無法捕捉單個細胞羣的獨特行爲,以及細胞如何相互作用來執行更高層次的組織功能。

最近的高通量單細胞組學技術的爆炸帶來了令人興奮的可能性,包括但不限於模型的動態,內部和細胞間的基因網絡,以闡明背後的過程,細胞發育,功能狀態和細胞-細胞通訊,而這些不可能在bulk水平獲得。這些單細胞組學技術給了我們前所未有的能力以檢查轉錄,蛋白質和表觀基因組的概況在單細胞解決,在調節和功能關係的生物分子在單個細胞或細胞類型以及細胞羣之間。在理論上,類似的框架和方法已經被用於組織網絡建模,可以擴展到單細胞數據,以揭示調控細胞內部和細胞之間的功能的調節機制。然而,正如Chen和Mar在他們最近的研究中所指出的,bulk組織模型可能不太適合克服單細胞數據帶來的獨特挑戰。

在此,我們將討論爲bulk組織組學數據開發的現有網絡建模方法,使用單細胞組學數據進行網絡建模所面臨的獨特挑戰,利用單細胞數據建立網絡模型的方法的最新發展及其關鍵的底層算法優缺點。最後,我們討論了有待克服的問題以及我們認爲該領域將在哪些方面實現基於單細胞組學數據的更高效、更準確的基因調控網絡建模。

bulk組織數據GRN建模方法

針對bulk組織數據開發和優化的常見GRN方法通常基於相關、迴歸、常微分方程(ode)、互信息、高斯圖形模型和貝葉斯方法。例如:

  • 基於相關關係的加權基因共表達網絡分析(WGCNA)是最常用的方法。WGCNA用於發現高度相關的基因簇(或模塊),這些基因通常代表參與類似生物途徑或功能的受到嚴格調控的基因。雖然基於共表達的方法計算效率高,且較少依賴於假設,但這些方法主要對功能相似或調控相似的基因進行分組,但不能推斷出方向性或直接的調控關係,需要整合其他信息以促進可解釋性。
  • 基於迴歸的方法,如GENIE3,通過基於迴歸模型確定每個網絡基因的最具預測性的基因子集來解析網絡。這些方法適用於線性級聯,但不適用於前饋迴路。
  • 對於基於相互信息的方法,如ARACNE和CLR,網絡結構是由基因對之間的依賴程度決定的。這些相互信息的網絡方法可以推斷方向性和潛在的因果關係,可以更準確地預測前饋迴路,但線性級聯的性能有限。
  • 貝葉斯網絡(BN)建模方法提供了靈活的框架來合併和整合多組數據作爲先驗信息,以推斷因果性和方向性基因-基因相互作用。BN編碼基因之間的條件依賴性,其中每個基因由其父節點的值決定。爲了提高精確度,BNs通過可能圖的多元空間進行搜索,這樣做的代價是較高的計算成本,並且不能保證可以檢測到最優拓撲。

常用的GRN推理算法各有優缺點,多方法的集成可以彌補每種方法固有的缺點,更好地解釋數據。需要注意的是,這些方法是針對bulk組織級數據進行優化的,這些數據通常符合標準數據分佈,並且幾乎沒有缺失值。

單細胞技術和數據結構

利用最近開發的單細胞技術,我們現在能夠檢測轉錄(DropSeq , inDrop, 10X,SmartSeq v4,Marsseq , Seq-Well , SPLiT-seq , sci-RNA-seq),蛋白質(CITE-seq),以及表觀基因組如開放染色質(scacc -seq)和甲基化景觀。這些單細胞技術帶來了令人興奮的可能性,以前所未有的分辨率和規模探索生物學。單細胞RNA測序(scRNAseq)是目前最流行和廣泛應用的高通量檢測單細胞的技術。通常,這些高通量單細胞轉錄組技術是基於從3 '端計數轉錄片段,然後與參考基因組對齊。由此產生的數據結構集合了每個單細胞的基因計數,稱爲數字基因表達譜(digital gene expression ,DGE)。

對於其他數據類型,相似的細胞標記(如蛋白質,染色質位置,和甲基化位點)矩陣形成主要的數據結構。雖然已經將單細胞表觀基因組投射到單細胞轉錄組上,但就我們所知,整合多組數據用於GRN建模還沒有嘗試過,這是方法學未來發展的方向。多組數據可以以多種方式合併,包括構建一個跨組學層外推的具有邊緣置信度的單一網絡,以及從單個組學層構建多個網絡,通過關聯關係或已知功能相關性在各層之間進行交互。例如,位於特定基因啓動子或增強子區域的開放染色質將允許在scac -seq和scRNAseq層之間繪製有向邊;蛋白質組數據可以幫助推斷蛋白質之間的相互作用,並提供有關調控蛋白質的信息,如轉錄因子(TFs)和調控轉錄組和表觀基因組的表觀基因組調控。在這篇綜述中,我們將重點關注scRNAseq數據,因爲它們是GRN建模中研究的最豐富的單細胞數據類型。

現有GRN方法在單細胞網絡建模中的性能

最近,Chen和Mar在利用經驗和模擬單細胞數據進行網絡構建時,評估了五種常用的用於bulk組織數據的廣義網絡重建方法的能力。在他們的分析中使用的方法包括部分相關、BN、GENIE3、ARACNE和CLR。利用精確召回和接受者工作特性曲線( precision-recall and receiver operating characteristic curves )來評估每種方法是否能準確再現參考網絡,發現在模擬和實驗單細胞數據集中,所有方法都沒有明顯優於隨機生成方法。此外,在網絡預測中,不同方法之間也只存在有限的重疊。這表明,現有的基於單細胞數據的網絡建設方法缺乏通用性和適用性。然而,在解釋這種比較結果時需要謹慎,因爲使用的金標準參考網絡的有效性和質量評價指標會顯著影響比較結果。

scRNAseq數據網絡建模中特有挑戰與機遇

現有方法的潛在性能不足可能是由於與數據稀疏性、分佈以及數據維數和容量增加相關的獨特挑戰造成的。

首先,對於使用最近的高通量平臺的scRNAseq來說,由於單細胞中存在的mRNA數量非常少,以及目前技術限制導致DGE矩陣中的大多數條目都是零,這導致矩陣非常稀疏,使得爲bulk組織數據設計的方法的直接擴展非常困難。重要的是,儘管這些零可能是個體細胞中隨機基因表達的結果(生物學上的零),但它們並不一定意味着mRNA分子的缺失,而是對中至低表達基因的低技術敏感性的結果,稱爲缺失。【著名的雙零問題】值得注意的是,基於讀取計數的scRNAseq是零膨脹的,而包含獨特分子標識符(UMI)計數的scRNAseq被發現具有“非零膨脹”特徵,導致與基於讀取計數的技術相比,其分佈不同。reads計數和基於uml的scRNAseq中底層數據分佈的差異要求在未來實現新方法時考慮這些不同技術的數據特徵。

在試圖爲缺失值賦值時,許多單細胞歸算方法,例如MAGIC、scImpute、DrImpute、SAVER、BISCUIT、ScUnif、PBLR、deepImpute等得到了開發和應用。但是,這些方法的性能差異很大。在基準測試中,scImpute和DrImpute在模擬數據上成功,但在面對非共線經驗數據時失敗,而SAVER和BISCUIT只能持續地將dropouts歸爲接近零的值。此外,用於測量性能的主要指標(例如rand指數或相互信息)對這些方法定義細胞集羣的能力進行基準測試;目前還不清楚這些估算值如何影響網絡結構。由於對這些數值插入方法的結果沒有一致的意見和實驗驗證,在使用數值插入數據進行網絡構建時需要謹慎。簡單和直觀的方法由漢等使用相同的細胞亞羣的細胞類型,平均每個基因在細胞的非零值從每個子集獲得一個超細胞(supercell)的基因表達矩陣,與零值和更少的膨脹可能更多的生物有關。值得注意的是,這種做法會減少細胞數量並犧牲統計能力。

第二個挑戰是與細胞數據中的dropout 問題相關的非標準數據分佈模式。大量的缺失值顯著地使數據分佈從單峯分佈(如高斯分佈)向多模態分佈傾斜,這違反了大多數經典GRN建模方法的統計假設。對於單細胞網絡的構建,需要仔細評估數據分佈模式和適當的統計方法。有幾種統計方法,如零膨脹因子分析(ZIFA)和ZINB-WaVE(基於零膨脹負二項式的期望變異提取)已經被開發來專門建模零膨脹的單細胞數據分佈。ZIFA是一種降維方法,其假設是低表達的基因比高表達的基因更有可能導致缺失。ZIFA擴展了因子分析,在非零均值表達式的基礎上,將dropout率模型作爲指數衰減。然而,ZIFA也有限制,因爲它嚴格地對零測量進行建模,不能解釋接近零的值。此外,子發還有一個底層的線性轉換框架;然而,非線性降維技術,如t-SNE和UMAP已經被證明在解釋單細胞數據中是有用的,所以零膨脹模型的擴展到這些非線性方法可能是有用的。ZINB-WaVE是另一種降維技術,它獨特地模擬了scRNAseq數據的計數性質,並使用樣本級截獲(sample-level intercept)和靈活的基因級和樣本級協變合併標準化,以解決批次效應和序列組成效應(如基因長度或GC內容)。爲了解決數據的零膨脹和過度分散問題,ZINB-WaVE修改了一個不適合數據的標準負二項分佈,用一個術語給出觀察到0的概率,而不是實際的計數。雖然ZINB-WaVE主要被證明是單細胞數據的降維技術,但作者認爲低維表示可以用於下游分析,如聚類或僞時間。

最近,Townes等發現多項式方法在特徵選擇和降維方面優於現有的其他方法。考慮這些替代的統計方法在GRN推斷可能被證明是有用的。應該指出的是,這些統計方法是爲讀計數數據開發的,可能不適合基於UMI的單細胞數據集,因爲它們有不同的底層數據分佈,而這些數據分佈不是零膨脹的。

第三,該領域必須掌握校正混雜因素的能力,並將從多個實驗獲得的數據推斷爲一個共同的圖譜。挑戰出現在各批次數據由變量構成和研究,甚至批次還包含相同的細胞類型,個別細胞類型的細胞數量和轉錄狀態由於程序上可以有很大的不同噪聲(組織分離、排序和試劑批次),scRNAseq平臺(例如10×與Dropseq),和試劑版本(10×的2和3版本)。就像在bulk組織設置中使用批次校正來調整混雜因素一樣,不同實驗甚至實驗室產生的數據集的集成是重要的,因爲它增強了統計強度和重現性。最初用於bulk組織校正的方法,如limma和ComBat,已應用於單細胞數據的批量校正;而,已有研究表明,將這些爲bulk數據開發的方法同時應用於模擬和真實單細胞數據存在侷限性。最近,該領域取得了重大進展,產生了專門用於單細胞批次校正的方法,如典型相關分析(CCA)和mnnCorrect,以及基於帶標記的參考數據集的細胞類型識別方法,如scmap和singleR。然而,在對單細胞數據應用批次修正方法後,謹慎地進行下游分析(如GRN構建)是很重要的,而且有必要了解底層算法和假設。

像CCA和mnnCorrect這樣的方法只利用跨數據集共享的高度可變的基因進行集成,並返回一個校正後的基因表達矩陣,其中只包含用於集成的可變基因。這些基因主要定義細胞類型特異性標記,而CCA的過程固有地引入了基因之間的依賴關係,並違反了用於下游分析(如差異表達)的統計測試的假設,因此CCA的作者警告說,不要使用CCA進行跨數據集的保守細胞類型鑑定。一般來說,爲批次數據開發的批次校正方法在批次校正中執行得更差,而爲單細胞數據開發的方法在從不同批次聚集細胞類型方面更準確,但可能不能擴展到下游分析。因此,有必要開發能兩者兼顧的方法。

最後,與通常由試驗組id、樣本id和特徵測量組成的bulk組織數據相比,單細胞數據通過從每個樣本中添加數十種細胞類型和數千個細胞,也呈現出維數和數據量的增加。這種維數和數據量的增加,不僅使網絡建模更加複雜,計算成本更高,而且從生物學角度帶來了現有方法無法承受的新可能性。除了基因在網絡中是如何組織和相互作用這一典型問題之外,人們還可以提出許多新的令人激動的問題。例如:

  • 什麼定義了細胞類型?
  • 基因在每種細胞類型中是如何組織的?
  • 細胞類型之間的網絡架構有何不同?
  • 細胞之間的關係是什麼?
  • 它們來自相同的還是不同的血統?
  • 這些血統是如何進化的?
  • 同一細胞類型是否有不同的狀態?
  • 什麼基因調控通路決定細胞狀態?
  • 細胞如何從一種狀態過渡到另一種狀態?
  • 哪些細胞相互溝通以確定更高層次的功能,以及它們通過哪些基因和途徑進行溝通?

許多這些新問題在bulk時代並沒有被考慮或容易解決。除了提供回答這些重要問題的機會外,在每個樣本中測量的 細胞中細胞間的差異性或異質性也提供了足夠的信息來構建樣本內或特定於輪廓的網絡。這樣的網絡描述單個生物樣本的GRN,這在bulk時代是不可能的。換句話說,利用大細胞數維的能力允許爲每個樣本構建基於其組成細胞剖面的grn,這可以用於樣本間的共識網絡,以提高準確性。

最近的scRNAseq GRN建模方法

認識到對單細胞數據的新的GRN建模方法的需要,最近開發了許多主要基於scRNAseq數據的方法。我們根據基本的生物學問題對這些方法進行分類(動態建模、細胞內網絡和細胞-細胞相互作用網絡。然後是具體的生物學假設(例如TF目標相互作用,配體-受體相互作用)和算法(例如共表達,迴歸,ode,貝葉斯和布爾型),如表1所示:

Category Example methods Underlying biological assumption Algorithmic basis Advantages Limitations
Dynamic network **(extensively reviewed in refs SCNS Single-gene changes between cell transition states can inform on gene regulatory relations Boolean Does not rely on prior knowledge. Has a web UI. Resulting models are executable and can be used to make predictions Need data discretization; limit to small numbers of genes; regulatory relations need to follow Boolean rules
Dynamic network (extensively reviewed in refs) SCODE [82] TF expression dynamics (pseudo-time) and TF regulatory relations (GENEI3) ODE; Bayesian model selection Estimate relational expression efficiently using linear regression; reduction of time complexity; fast algorithm Need dimension reduction first for computing speed and memory feasibility; assumes that all cells are on the same trajectory; optimization is computationally intractable
Dynamic network (extensively reviewed in refs) GRISLI [83] Variability in scRNAseq data caused by cell cycle, states, etc. allows the inference of pseudo-time associated with each individual cell ODE Makes no restrictive assumption on the gene network structure; can consider multiple trajectories; fast algorithm Has to estimate the velocity of each individual cell using information from neighbors
Dynamic network (extensively reviewed in refs) SINCERITIES [84] Changes in the expression of a TF will alter the expression of target genes Ridge regression and partial correlation analysis Low computational complexity and able to handle large-scale data Requires scRNAseq data at multiple time points. Restricted to TFs and their targets to infer edges
Dynamic network (extensively reviewed in refs) Scribe [85] Cell ordering can be improved with time-series or cell velocity estimations RDI Outperforms other pseudo-time methods given time-series data. Can be applied to any data type if the data structure is appropriate Requires time-ordered gene expression profiles or velocity estimation from introns and exons
Dynamic network (extensively reviewed in refs) AR1MA1-VBEM [40] The cell differentiation process or response to external stimulus reveals the hierarchical structure of the transcriptome First-order autoregressive moving-average and variational Bayesian expectation-maximization Weighted interactions between genes along psuedotime. Model used accounts for noisy data Data are expressed as fold changes between timepoints/conditions or scaled by housekeeping genes
Dynamic network (extensively reviewed in refs) SCINGE [86] Learned target regulator genes can be used to assign each cell to their progress along a trajectory Granger causality Smooths irregular pseudo-times and missing expression values Near random performance for predicting targets of individual regulators
Dynamic network (extensively reviewed in refs) SoptSC [87] Similarities between whole transcriptomes of single cells can be used to order them Cells ordered by minimum paths on weighted cluster-to-cluster graph derived from cell similarity matrix Includes comprehensive single-cell workflow; leverages information from other parts of the workflow to improve performance Cannot be run with other tools, have run the full workflow to get pseudo-time inference
Within-cell or cell population network SCENIC [88] TF target-based regulation Combining TF regulatory relations (GENIE3) with TF-binding motif analysis Robust against dropouts, get a TF score for individual cells (no averaging of cells). Limited to TF-based relations
Within-cell or cell population network Pina et al. [89] TFs drive lineage commitment Odds ratio for on/off gene associations and spearmen correlation for expression levels associations Robust to dropouts Based on single-cell multiplex qRT-PCR, may be difficult to extend the method to sparse single-cell data (selected 44 genes to test)
Within-cell or cell population network Iacono et al. [90] Coexpression is regulated by TFs, cofactors, and signaling molecules which can be captured with gene–gene correlations Pearson correlation using z-score-transformed counts Can compute correlations at the single-cell level and it is robust to dropouts and noise inherent to single-cell data Networks are very dense (some have millions of significant edges)
Within-cell or cell population network PIDC [39,91] Gene regulatory information reflected in dependencies in the expression patterns of genes Partial information decomposition using gene trios Compared with correlation, captures more complicated gene dependencies Networks are influenced by data discretization, choice of mutual information estimator, method developed for sc-qPCR data, may not be extendable to higher throughput and sparser scRNAseq data
Within-cell or cell population network Jackson et al. [92] Deletion of TFs combined with experimental conditions allows for the inference of gene relationships MTL to leverage cross-dataset commonalities and incorporate prior knowledge Does not require sophisticated normalization of single-cell data or imputation. Able to combine multiple conditions/datasets for more accurate inference. TF deletions give strong causal link to affected genes Requires single-cell data with TF deletions and/or environmental perturbations
Within-cell or cell population network Wang et al. [93] Gene perturbations allow for inference of causal relationships Scoring of conditional independence test to identify optimal DAG Gives causal relationships between genes Requires interventional data. No loops allowed in DAG
Within-cell or cell population network ACTION [94] Functional identity of cells is determined by a weak, but specifically expressed set of genes which are mediated by TFs Kernel-based cell similarity and geometric approach to identify primary functions Robust to dropout and does not require averaging. Identifies functions unique to cell types Requires TFs and their targets. Only provides TF-driven networks
Within-cell or cell population network SINCERA [95] TF target-based regulation First-order conditional dependence on gene expression to construct a DAG Key TFs identified using multiple importance metrics Only considers TFs and their targets. Requires genes/TFs to be DEGs or expressed in >80% of cells
Cell–cell communication network iTALK [96] Ligand–receptor interactions Threshold ranked list of genes from two cell types for ligand–receptor pairs Allows for the inference of directionality of interaction Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell). Cannot reveal novel interactions beyond known ligand–receptor knowledge
Cell–cell communication network Zhou et al. [97] Ligand–receptor interactions Expression of ligand and corresponding receptor more than three standard deviations greater than the mean Allows for the inference of directionality of interaction Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell)
Cell–cell communication network Kumar et al. [98] Ligand–receptor interactions Product of the average expression of ligand and corresponding receptor Allows for the inference of directionality of interaction. Interaction score gives the strength of interaction (rather than just significance) Requires curation of ligand–receptor interactions (not all interactions are known). Average expression at the cell-type level (no longer single cell)
Cell–cell communication network Arneson et al. [99] Ligand to downstream signaling Coexpression of ligand genes in source cells with other genes in target cells Use secreted ligands as a guidance for directional inference between cell populations Gene expression is summarized to the cell population level and coexpression is at the sample level, requiring large sample sizes
Cell–cell communication network SoptSC [87] Ligand–receptor interactions Likelihood estimate of the interaction Cell–cell communication networkbetween two cells based on expression of the ligand, receptor, and downstream pathway target genes (including expression direction). Consensus signaling network derived from all cells in each cluster Incorporates target genes of pathways and their directionality. Computes interaction likelihood at the single-cell level and summarizes across all cells in the cluster for higher confidence Requires curation of ligand–receptor interactions and their downstream pathways
Cell–cell communication network scTensor [100] Ligand–receptor interactions Tensor decomposition with cell–cell interactions as hypergraphs Allows L–R pairs to function across multiple cell-type pairs (not restricted to a single-cell-type pair), which is more reflective of underlying biology Requires curation of ligand–receptor interactions. Averages single cells to the cell-type level

最直接的算法是共表達,即一個基因與另一個基因相互作用的可能性取決於它們成對相關係數的強度。雖然在計算上易於處理,但這些方法中的大多數不提供方向性,而且可能推斷函數相關性而不是直接調節。更復雜的方法包括ode、布爾網絡和BNs,如前所述,每種方法都有其優點和侷限性。

  • 布爾網絡要求離散化基因表達值,並應用布爾函數來描述調控相互作用,這可能導致過度簡化。
  • 基於ode的方法使用線性、非線性或分段微分方程以連續而不是離散的方式對mRNA含量的動態特性建模。
  • BN是一個有向無環圖(DAG),它整合了先驗信息來指導其基因-基因相互作用的預測,本質上是概率性的。
  • 最後,信息論度量描述了生物實體之間的統計相關性,包括熵(熵是基於隨機變量的不確定性對信息進行量化的概念)和互信息(互信息是對一個隨機變量的觀察可以告知或減少另一個隨機變量的不確定性)。這種方法產生了更一般的關聯,允許捕獲非線性依賴,並在網絡推理中被普遍使用。

值得注意的是,由於新的方法正在迅速發展,不可能詳盡地記錄所有現有的方法。在這裏,我們強調了單細胞GRN建模的廣泛類別,並討論了示例方法來說明這些概念,並注意到它們的優點和潛在的侷限性。我們還排除了基於舊的低通量單細胞平臺(如單細胞qPCR)數據開發的方法,這些方法與稀疏高通量的scRNAseq沒有相同的挑戰。

動力學網絡

到目前爲止,大多數基於scRNAseq的GRN建模方法被設計用於處理動態細胞狀態轉換(圖1B),因爲scRNAseq數據包含來自顯示時間動態的異步細胞種羣的信息,允許在擬(僞)時間(pseudo-time)尺度上映射細胞轉換。表達動力學或僞時間估計的常用模型假設細胞變化(即發育、激活和失活)沿着連續曲線或理想化樹進行,每個中間階段都很短,並通過對大量細胞的測序得到。在這些假設下,計算建模可以推斷細胞動力學的軌跡,可以根據已知的調控關係,如TF靶標信息、基因表達的相似性、以未成熟和成熟mRNA含量爲代表的RNA速度來推導。但是,需要注意的是,在給定快照上同時出現的各種細胞狀態並不代表序列或沿襲信息推斷的實時過程。因此,加入僞時間不一定能改善GRN的構造。

到目前爲止,已經開發了超過50種方法用於軌跡推斷來推導僞時間信息,這些方法之前已經被回顧和比較過。僞時間排序爲動態GRN建模提供了方向性和交互性信息。這種僞時間信息與上述常用的網絡構造算法如correlation , ODE , Boolean , BN,信息論和其他方法相結合。許多動態GRN方法已經被其他人廣泛地回顧過,我們在這裏只討論不同類別中的幾個例子。

  • 一種布爾網絡方法,即SCNS,是基於有序細胞之間的單基因變化,細胞被離散到一個開/關的狀態。
  • 另一種方法SCODE使用線性ODE(一種假設所有細胞都在同一軌跡上的僞時間估計)和基於TF的框架來建模TF動力學,捕獲基因間的調控關係。
  • 在此基礎上,GRISLI最近被開發出來,它使用了與SCODE類似的方法,但考慮了多個細胞軌跡,不採用網絡結構,計算時間更快。GRISLI首先估計每個細胞的速度,然後解決一個稀疏迴歸問題,將細胞的基因表達與其速度分佈聯繫起來,以估計GRN。
  • 以信息論爲基礎的方法,SINCERITIES,利用Granger因果關係獲取方向性信息,量化每個基因表達在兩個後續(僞)時間點之間的時間變化。通過嶺迴歸分析,利用TF表達的變化預測相應基因在下一個時間窗口的變化,通過對每個基因對的表達進行偏相關分析,推斷邊緣方向和符號。SCINGE還對有序單細胞數據使用基於核函數的因果迴歸來預測調控因子與靶基因的相互作用,然後對迴歸結果進行聚合,對預測的相互作用進行排序。
  • 另一種方法是PIPER,它使用局部泊松圖形建模來更有效地捕獲細胞分化過程中的網絡變化,並突出顯示驅動這些變化的關鍵TFs。
  • NB推理方法,AR1MA1-VBEM(變分貝葉斯採用),應用一階自迴歸移動平均(AR1MA1)模型適合代表觀測時間序列的線性模型的組合數據前面的計算和噪聲項,並使用一個問題的框架,利用變分法來優化網絡模型的邊際似然和後驗分佈。
  • Scribe是另一種最近發展起來的方法,它使用限制性定向信息(RDI),通過引用相關的時間序列數據或從內含子(指示未成熟RNA)和外顯子讀子中推斷細胞速度來推斷因果grn。作者證明當有真實的時間序列數據時,Scribe優於其他僞時間方法;然而,當測量的時間信息丟失時,所有方法的性能都會受到極大影響。有趣的是,Deshpande等人最近對各種方法進行了比較,發現加入僞時間並不一定會帶來更好的性能,但在某些情況下會損害網絡重建。如前所述,這可能是由於僞時間方法的假設存在問題造成的。
細胞內網絡

第二類方法側重於在不考慮細胞軌跡或動力學的情況下對細胞內羣體的grn進行建模。這些方法包括共表達和基於tf的方法、共表達和不依賴tf的方法以及信息論方法(表1和圖1B)。這符合組織基因-基因相互作用GRN建模的基本概念,除了這裏爲特定細胞羣建模的單細胞數據。

與動態網絡建模相似,對細胞內羣體建模的最簡單方法是基於共表達。在這裏,共表示方法分爲兩組:利用TFs形式的先驗信息的方法和不利用TFs形式的方法。對於與tf無關的方法,一個基因與另一個基因相互作用的可能性取決於它們成對相關係數的強度,並考慮了所有可能的基因對。在基於tf的方法中,根據與不同TFs的成對相關係數最強的基因分組到模塊中,或者根據之前的文獻或motif證據分離到潛在的相互作用。定義細胞內grn的一種更復雜的方法是部分信息分解,它可以捕獲非線性的基因依賴性。在這裏,由一對基因提供的信息被用來量化所有三組基因中關於第三個基因的獨特的、共享的和協同的信息,從而推斷出一個網絡結構。

幾種基於相關的方法已經被開發出來,用來比較已知或預測的TFs與靶基因或所有基因之間的基因表達模式。例如,

  • 通過對共表達基因模塊進行帶有TF結合基序的SCENIC couples基因共表達分析,以識別GRN模塊,預測TF調節因子,並識別假定的TF靶標(稱爲調節因子)的單細胞水平活性。這些調節因子的活性可用於羣集細胞類型,比較網絡保護,並確定參與疾病的重要細胞狀態和grn。
  • 另一種方法是使用完整的分析管道來處理scRNAseq數據。它首先識別每個細胞類型的候選TFs和它們的靶標。然後利用基因表達的一階條件依賴性來確定兩個或一個轉錄因子與目標基因之間的相互作用,並通過整合六個不同節點重要性指標來確定每個GRN中的關鍵轉錄因子。
  • 其他的coexpression-based GRN方法,使用一個細胞類型特異的GRN正交化方法構建基於細胞的功能標識的關鍵假設是由一組弱,但具體表達基因介導的一組TFs。
  • ACTION將每個細胞描述爲高維空間中的一組“細胞函數”,這些函數的數量使用非參數方法確定。使用正交化法確定每種細胞功能所特有的基因,並評估TFs在控制這些細胞功能基因中的作用。細胞內的TF和相關靶基因構成了這個網絡。

Pina等和最近的Iacono等也利用共表達構建了不限於TF目標關係的全局GRNs。前者計算一個細胞類型內所有細胞間的Spearman等級(rank)相關性,以推斷造血過程中的細胞型GRNs,並利用線性轉化表達數據的比值比確定顯著的成對關聯。Iacono等人使用了一種基於皮爾遜相關的方法,該方法首先使用bigSCale轉換表達值,使用概率模型推導出每個基因的z分數,以考慮單細胞數據固有的噪音和變異性。利用z得分的兩兩相關關係來構建grn。z分數的使用增加了顯著的基因對基因的相關性。

爲了揭示簡單的相關策略所不能提供的複雜的基因依賴關係,GRN推理方法採用了信息論的技術。具體來說,PIDC使用部分信息分解,在所有其他可能的基因中找到任何一對兩個基因所提供的唯一信息。這種多元信息的方法利用第三個基因之間的依賴關係識別非線性雙基因關係。

細胞通信網絡

一個給定的異質組織的基本功能不僅由組織內不同細胞類型的活動決定,而且由細胞羣體之間密切的溝通和協調決定。例如,神經元和星形膠質細胞相互作用以保證大腦的基本功能,免疫細胞與脂肪組織中的脂肪細胞相互作用以調節能量代謝和產熱。因此,細胞-細胞間的通訊是一個關鍵的生物學問題,但由於之前缺乏高通量、高分辨率的單細胞數據而尚未得到全面的解決。單細胞方法同時捕獲多種細胞類型的獨特能力,使得建立細胞-細胞通信網絡模型成爲可能。建立這種網絡模型的基本假設是,細胞之間的通信可以通過測量單個細胞羣體的分子模式來捕獲。例如,一對相互聯繫的細胞可能以協調的方式表達參與特定功能的基因和蛋白質(例如,一個細胞表達配體,另一個細胞表達相應的受體,以觸發信號通路)。

早期對細胞-細胞通信網絡模型的嘗試主要是基於基因共同表達的概念,無論是否考慮配體-受體的相互作用信息。潛在的假設是細胞之間的基因相關模式反映了真實的生物相互作用。在組織-組織相互作用的水平上,已有證據支持這一假設的有效性。例如,腦區域間的基因共表達可以概括出小鼠腦連接體功能衍生的相互作用,5種不同小鼠組織間的基因共表達揭示了介導溝通的新內分泌因子,這些新因子隨後被實驗驗證。

當Han等人基於不同細胞類型的基因表達譜的相似性建立細胞-細胞連接時,共表達方法迅速適用於單細胞數據。然而,這些網絡更有可能反映細胞類型之間的相似性,而不是相互作用或通信。爲了修改經典的共表達框架,基於配體和受體的方法已經被提出,它依賴於這樣的假設:細胞間通信的重要部分是通過釋放化學分子從一個細胞結合到另一個細胞的受體。利用這個假設允許基於配體受體的方法來構建可靠的基於生物的定向網絡。然而,這樣做的代價是在固有的稀疏數據模式中嚴重限制了潛在基因的集合。值得注意的是,基於共表達的分析通常使用皮爾遜相關係數,由於零膨脹的性質和獨特的分佈模式,皮爾遜相關係數可能不適用於基於讀取的單細胞數據集。在對單細胞數據使用基於共表達的分析時,重要的是要考慮數據轉換和適當的統計。

有幾種方法說明了通過配體-受體相互作用的細胞-細胞通信。

  • Zhou等人編制了一份>25000對已知配體受體的清單,以檢測它們在關於4000個黑色素瘤細胞的轉錄組中的變化。爲了確定一對細胞是否在交流,配體和相應的受體必須在這兩種細胞中表達超過一定的可調閾值。
  • 類似地,Kumar等人關注的是基於約1800文獻的配體-受體對,但採用了不同的評分方案,考慮了各自被測細胞類型中平均受體表達和平均配體表達的產物。
  • iTALK是另一種新的基於配體-受體交互的網絡構建方法,它被移植爲帶有數據可視化工具的R包。對於每一個細胞類型和iTALK數據庫中的配體對,iTALK標識中的配體-受體對(> 2600對)兩個細胞類型之間通過詢問排名列表基因來源於平均差異表達基因(單一的計算/條件)或(多個時間點/條件)。此外,iTALK還能夠使用元數據(例如,時間點、組和羣組)通過識別不同表達的配體-受體對來發現細胞-細胞相互作用的變化。
  • 類似地,Smillie等人使用了FANTOM5數據庫中數千篇支持文獻的受體-配體相互作用來識別細胞-細胞相互作用,要求基因是細胞標記基因或差異表達基因來表示細胞間的重要相互作用。
  • 在大多數配體-受體方法中,配體-受體對僅限於細胞類型;然而,在scTensor中,Tsuyuzaki等人採用了更靈活的方法,不存在此類限制。在scTensor中,細胞-細胞相互作用被表示爲超圖,超圖描述了用張量分解確定的配體-受體對的有向邊。
  • Vento-Tormo等人最近提出的一種方法也考慮了分泌分子和細胞表面分子,並使用基於置換的方法來尋找細胞類型之間豐富的配體-受體對。爲了實現這一點,作者開發了CellPhoneDB,一個配體-受體相互作用的公共知識庫,由蛋白質-蛋白質相互作用的公共資源管理,其中包括配體和受體的亞基組成,以充分表達它們的相互作用。對於由多個亞基組成的蛋白質,需要表達所有亞基才能推斷出準確的相互作用。

上述方法都只專注於配體-受體對,這依賴於假定的基因,使其侷限於一組可通知細胞-細胞通訊的基因對。此前,一種限制較少的建模方法已經被開發出來,該方法基於編碼源組織分泌肽和靶組織中所有基因的共同表達,來解剖組織-組織通信網絡。Arneson等人採用這一概念,在假小鼠和腦外傷小鼠的海馬中構建細胞-細胞通信網絡圖,揭示了腦損傷中廣泛的網絡重新佈線。這種方法推斷出細胞之間的聯繫,其基礎是假設一個細胞通過分泌信號分子與另一個細胞通訊,這些信號分子與靶細胞上的受體結合,從而觸發靶細胞的下游分子事件。因此,可能在源細胞類型中編碼分泌信號分子(即配體)的基因與受體以及靶細胞類型的下游通路基因之間存在共表達。通過考慮細胞類型之間所有表達基因的模式,其他方法可以將細胞-細胞相互作用的範圍擴展到基於配體-受體的關係之外,儘管對這種方法的生物學解釋不是那麼直接。

綜合的方法

wang et al提出了SoptSC,一個統一的框架來進行單細胞分析從基因表達矩陣基本分析工作流(如標準化、集羣、降維,並確定細胞標記基因),隨後推斷信息交流網絡和pseudotemporal。SoptSC的關鍵前提是結構化的細胞間相似度矩陣有助於改進網絡推理步驟。相似矩陣也被用於僞時間排序,在加權簇到簇圖中尋找細胞之間的最短路徑。爲了推斷細胞-細胞信號網絡,根據配體-受體對的表達和下游通路靶基因的方向來計算兩個細胞間相互作用的可能性估計值。通過總結任意兩種細胞類型的所有細胞之間的信號轉導概率,就可以形成一個集羣/細胞類型之間的一致網絡。

基因擾動網絡

上述方法都是利用TF級聯、配體-受體關係等信息流假設,沒有直接的因果信息。含有基因擾動信息的單細胞數據對於提供GRN構建的因果信息極爲有用,因爲一個基因的靶向擾動是其他基因下游反應的來源或觸發器。Jackson等人提出了利用基因缺失突變體的方法。具體地說,他們彙集了橫跨12種不同基因型(TF缺失)和11種不同條件的72種不同酵母株,生成了38000個細胞的scRNAseq數據。除了表達數據,該方法使用來自TF目標和生物物理參數(如TF活性和mRNA衰減率)的先驗信息,使用多任務學習(MTL)框架構建GRN。這允許在不同的條件和實驗中整合信息,以解釋TF擾動和觀察到的基因表達變化之間的關係。通過直接刪除TFs,作者創建了一個有價值的數據集,可以作爲其他單細胞網絡推理方法的有用基準。Wang等人提出了一種推斷因果DAGs的算法。將CRISPR/ cas9介導的基因擾動與單細胞測序相結合,生成高通量的介入基因表達數據。該算法基於貪心SP來限制基於置換的DAG搜索空間,利用貪心干涉等價搜索來評估潛在的網絡分數。爲了進一步擴展因果網絡推理的研究,Wang等人引入了一種方法,可以識別從不同數據集推導出的DAGs之間的差異。同一組也表明,軟干預用於Perturb-seq,比如那些導致局部破壞的基因相關性(例如RNAi或CRISPR-mediated基因激活),提供相同數量的因果信息困難的干預(例如CRISPR / Cas9-mediated基因刪除),導致完全中斷,儘管只是輕微擾動。

單細胞GRN建模方法的性能評估

Chen和Mar最近將一些單細胞網絡建模方法,包括SCENIC、SCODE和PIDC,應用於模擬和經驗的單細胞數據集,以評估其捕獲已知網絡交互的能力。他們發現這些方法之間的一致性很低。然而,由於每一種方法都有獨特的假設,並且可能不被設計來捕捉類似的交互作用,因此方法之間的一致並不一定適合於評估性能。另一項比較研究考察了包含僞時間信息的多種網絡推理方法(如SCINGE、SCODE和SINCERITIES)的性能,也表明許多調節目標預測對於每一種被測試的方法都可以接近隨機。

這些發現需要對單細胞網絡建模方法進行改進,並對現有的單細胞GRN方法的性能進行全面評估。另一方面,由生物學假設和數據驅動的基因共同表達驅動的配體-受體框架似乎在細胞-細胞通信網絡建模中很有前景。例如,用這種方法對scRNAseq數據進行建模,再現了海馬體內已知的細胞-細胞相互作用。

理想與現實之間

單細胞多組學分析技術正在迅速發展,帶來革命性的力量以提高我們對生命的基本單位----細胞-----以及在生理和病理條件下細胞之間的綜合瞭解。在更準確地分類細胞類型、糾正混雜因素、描述細胞譜系和細胞狀態轉變等方面取得了重大進展。然而,這些進展還不足以使我們完全理解個體細胞羣功能的調節機制,以及決定更高水平組織功能的細胞-細胞相互作用。現有方法模型基因網絡優化的主要組織數據爲單細胞數據表現不佳或不能適應新的生物單細胞數據,帶來的問題和方法,有效地和精確地模型流出單細胞數據到全面的RGNS的圖譜還在初級階段。特別是,目前仍急需新的網絡方法來解決單細胞數據的獨特挑戰,如數據稀疏性、多模態分佈和更高維數。數據稀疏性問題可以通過改進單細胞技術來增強信號捕獲,或者通過更精確的注入方法來解決,這些方法得到了強有力的實驗驗證數據的支持。這些努力將有助於緩解與非標準數據分佈相關的問題,這些問題限制了現有網絡方法的使用。另外,建立在更合適的統計數據和算法上的方法可以更好地適應dropout值和獨特的數據分佈,這是有必要的。

在單細胞數據的網絡建模中,另一個重要但不太突出的缺陷是缺少空間信息來約束建模空間。目前許多高通量的單細胞測序方法缺乏保持單個細胞的空間身份的能力,這降低了準確解析細胞網絡的能力,特別是在開發階段。各種高通量熒光原位雜交(FISH)方法已被開發爲解決空間信息的工具。假設細胞間的距離越近,就越有可能進行通信,可以利用成對單細胞間的空間距離作爲建立更復雜、更準確的網絡模型的先驗。最近發現,產生配體的細胞與表達相應受體的靶細胞直接相鄰,這一假設得到了支持。基於單分子魚的方法的另一個關鍵優勢是,它們是非常定量的,並且不會出現中斷,而這種中斷會困擾基於高通量單細胞測序方法。在空間單細胞方法中,也可以將表型(即行爲)與細胞激活(即cFos)結合,在假設特定表型或刺激中活躍的細胞更有可能進行交流的前提下,整合到模型中。此前,Moffitt等人曾使用這種方法來識別在養育過程中激活的神經元。因此,將單細胞測序方法與高通量單分子成像相結合,在提高單細胞分辨率下的網絡建模方面具有巨大潛力。儘管有潛力,但使用空間數據構建GRNs仍存在侷限性和複雜性。首先,基於單分子fish方法的細胞分割是非平凡的,沒有它GRN的構建是不可能的。此外,單個圖像承載有限的動態細胞景觀表示。事實上,許多這些技術只能實現單個細胞的成像深度,因此它本質上是一個給定時間的二維快照,可能無法捕捉到在成像平面和時間框架之外的細胞動態。

目前,大多數方法都是爲scRNAseq設計的,需要結合其他單細胞組學指標(遺傳、表觀遺傳和蛋白質)的方法。這與大組織GRN推斷所面臨的挑戰相同,而多組學集成和建模的最新進展可能爲單細胞多組學建模提供指導。

最後,從經驗數據中預測的網絡的準確性很難評估,因爲通過在體內單個細胞中干擾預測的調節因子進行高通量驗證比進行全身敲除或敲除更具挑戰性。值得肯定的是,新的高通量基因干擾技術,如Perturb-seq 與scRNAseq的結合,有可能深入瞭解基因和細胞之間的真正關係。來自這些平臺的數據可以作爲更合適的基準數據集,通過測試每種方法檢索擾動-響應實驗中已知的真實調節關係或交互關係的效果,來評估現有網絡方法的預測。同樣,利用文獻中已知的、經過實驗驗證的基因-基因、細胞-細胞通路可以作爲這些方法的基準。即使在沒有經過驗證的網絡連接的情況下,也可以採用基於社區的方法,通過結合多種方法推斷出的多個網絡來獲得一致的網絡,從而提高網絡性能。這種方法已經被證明對提高預測網絡的質量非常有價值。

總而言之,我們正在進入一個黃金時代,在這個時代,生物發現可以以前所未有的分辨率和通量進行。單細胞多組學數據的網絡建模是解開病理生理學背後複雜的分子機制和指導精準醫療的關鍵工具之一。儘管面臨諸多挑戰,但該領域正在迅速發展,方法創新的大量機會等待着更準確地描繪健康和疾病細胞的分子圖譜。


https://portlandpress.com/emergtoplifesci/article/3/4/379/219702/Network-modeling-of-single-cell-omics-data

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章