//沒更新完QAQ
文章地址:
QUBIC a bioconductor package for qualitative biclustering analysis of gene co-expression data.pdf
QUBIC2 A novel and robust biclustering algorithm for analyses and interpretation of large-scale RNA-Seq data
名詞註釋
- functional gene modules (FGMs) 基因功能模塊
每個模塊都被定義爲特定基因集上的高度結構化表達模式 - transcriptional regulatory signals (TRSs) 轉錄調控信號
- single-cell RNA-seq scRNA-seq
QUBIC
introduction
在大型轉錄組數據集中,雙聚類廣泛用於所有條件的子集下識別共表達基因。QUBIC程序被認爲是生物數據解釋中最有效的雙聚類方法之一。但是,它的可用性僅限於C實現和低吞吐量web接口。
該文介紹了一種QUBIC的R實現,它有兩個獨特的特點:
- 通過重構和優化QUBIC的源代碼C代碼,平均提高了82%的效率;
該算法功能包括:具有數據分析功能、數據離散化、查詢雙聚類、雙聚類擴展、雙聚類比較比較、熱圖可視化分析等功能
cell poputation
|(1)
mrna expression patterns
|(2)
identify co-expressed(or con-regulated) genes
在(1)中進行DNA微陣列 DNA mircroarrays,測量大量基因的表達水平
DNA mircroarrays
DNA微陣列(通常也稱爲基因芯片、DNA芯片或生物芯片)是附着在固體表面的微型DNA點的集合。科學家使用DNA微陣列同時測量大量基因的表達水平。
在(2)中進行聚類 biclustering,雙聚類、協聚類(co-clustering)或雙模式聚類是數據挖掘技術,它是允許同時對矩陣的行和列進行聚類。
多種類型的聚類
a)具有恆定值的雙聚類
b)行上具有常數值的雙聚類
c)列上爲常數的雙聚類
d)相參的雙聚類(相加)
(e)相參的雙聚類(相乘)
(圖片來源於網絡,作者:yang li)
key step
關鍵步驟表示使用定性矩陣的微陣列數據集
最重的未使用的邊(作爲種子)
→迭代招募新邊通過一個接一個地找到這個矩陣中的所有雙聚類
優點
1.優化了代碼,提高了執行效率
優化了代碼,提高了代碼的可移植性
改變了原c代碼成cpp代碼,改變了許多數據結構,運用了cpp中stl替換了原c中的許多內容,顯著提高了程序的效率
2.如果在某個步驟中忽略了雙聚類
3.QUBIC可以通過使用其他邊緣作爲雙聚類的種子來進行補救
4.QUBIC既能發現共同表達基因,也能發現共調控基因
5.QUBIC可以同時發現正相關基因和負相關基因
6.QUBIC可以找到一組特定基因(種子)的相關基因
7.QUBIC通過使用多個起點(種子)來擺脫局部最優的限制
缺點
總結
雙聚類算法QUBIC有助於研究人員在其基因表達數據集中識別共表達基因子集, 可以很好的成爲解釋基因表達譜數據的一種方法
QUBIC2
藉助QUBIC2算法可以有效的檢測多零表達或者多低表達的RNA-SEQ數據或者是scRNA-SEQ數據
introduction
- scRNA-seq數據具有高維性,涉及數千個基因以及大量細胞。
- 降維和特徵選擇是處理高維數據的兩種主要策略。
- 由於scRNA-seq的多零表達和多低表達,爲了更好處理scRNA-seq數據, 提出了QUBIC算法,而本文是在QUBIC的基礎上進行改進提出QUBIC2算法。
- 建立左截斷式的混合高斯模型的多峯性對多零表達數據的準確評估
- 一個快速和有效的功能性基因擴張戰略模塊優化使用信息分離和
- 嚴格的統計檢驗的重要性確定雙聚類在任何有機體,包括那些沒有實質性的功能註釋。在各種基準數據集上,與其他五種廣泛使用的算法相比,QUBIC2在檢測雙聚類方面的性能有了顯著提高。
- 大腸桿菌等模擬數據。QUBIC2還展示了由微陣列、批量RNA-Seq和scRNA-Seq產生的基因表達數據QUBIC2的穩健和優越的性能可用性和實現