「r<-工具」在 Hiplot 中使用 Sigflow

原創

2020-09-21 03:50

突變模式（印記）分析（mutational signature analysis）目前已經成爲變異檢測後一個重要分析流程，它能夠揭示癌症組織樣本受哪些內外界因素的影響以及其貢獻大小。

Sigflow 是基於突變模式分析 R 包 sigminer 所構建的命令行流程軟件，提供了幾大突變模式分析流程，便於組學流程的對接與自動化分析。

在 Hiplot 平臺上，目前 Sigflow 開放了 2 個核心的子命令 extract 和 fit 。

extract：自動利用非負矩陣分解（NMF）算法從頭識別突變模式，並將其與 COSMIC 突變模式數據庫進行相似性分析，輸出突變模式圖譜，突變模式貢獻圖譜，聚類結果等。
fit：直接利用 COSMIC 突變模式數據庫進行擬合分析，提供參考突變模式在樣本中的貢獻，輸出突變模式貢獻圖以及相關結果。

在 Hiplot 平臺的進階模塊中，我們可以找到 Sigflow。

點擊即可進行工具使用界面。

點擊數據文件右側的突變，可以載入示例輸入文件。一般而言，我們推薦使用標準的 MAF 格式文件作爲 SBS/DBS/INDEL 突變模式提取的輸入（包含同樣數據信息的 CSV/EXCEL 格式文件也支持）；提取拷貝數突變模式的輸入文件需要包含以下列：

該命令推薦在突變記錄多、樣本多的情況下使用。

經過簡化，extract 命令只需要設置 4 個參數：

基因組版本
- hg19
- hg38
- mm10
模式
- SBS - 單鹼基替換
- DBS - 雙鹼基替換
- ID - 插入和刪除
- MAF - 包含上面 3 種
- CN - 拷貝數
最大 signature 數：默認是 -1，根據程序內部的設定運行。用戶可以從 2 調整到更大的數目。根據 TCGA 數據的分析顯示，一般各類癌症亞型的突變模式在 5 個及以下。
NMF 運行次數：由於 NMF 算法存在起點的隨機性，爲了得到更好的結果，需要多次運行 NMF，一般推薦 30 到 50 左右。

設定好選項後點擊「提交」運行程序。

運行時間受到輸入數據大小和最後兩個選項的設定影響（10幾分鐘到數小時），請耐心等待程序結束。

任務完成後，在界面下方可以預覽一些輸出結果圖表，推薦點擊結果預覽右下側的下載按鈕下載所有的結果圖表📈。

fit 命令只需要設定 extract 命令提及的前 2 個參數，不再贅述。

fit 命令使用的是動態規劃算法尋找輸入數據基於 COSMIC 參考突變模式的最佳線性組合，算法很快，一般數百個樣本的處理過程可以在數分鐘內完成。

在 fit 的結果中，被 COSMIC 數據庫標記爲 artifact 的突變模式結果被去除了。

任務完成後，在界面下方可以預覽一些輸出結果圖表，推薦點擊結果預覽右下側的下載按鈕下載所有的結果圖表📈。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.