介紹
突變模式(印記)分析(mutational signature analysis)目前已經成爲變異檢測後一個重要分析流程,它能夠揭示癌症組織樣本受哪些內外界因素的影響以及其貢獻大小。
Sigflow 是基於突變模式分析 R 包 sigminer 所構建的命令行流程軟件,提供了幾大突變模式分析流程,便於組學流程的對接與自動化分析。
在 Hiplot 平臺上,目前 Sigflow 開放了 2 個核心的子命令 extract
和 fit
。
-
extract
:自動利用非負矩陣分解(NMF)算法從頭識別突變模式,並將其與 COSMIC 突變模式數據庫進行相似性分析,輸出突變模式圖譜,突變模式貢獻圖譜,聚類結果等。 -
fit
:直接利用 COSMIC 突變模式數據庫進行擬合分析,提供參考突變模式在樣本中的貢獻,輸出突變模式貢獻圖以及相關結果。
使用
在 Hiplot 平臺的進階模塊中,我們可以找到 Sigflow。
點擊即可進行工具使用界面。
點擊數據文件右側的突變,可以載入示例輸入文件。一般而言,我們推薦使用標準的 MAF 格式文件作爲 SBS/DBS/INDEL 突變模式提取的輸入(包含同樣數據信息的 CSV/EXCEL 格式文件也支持);提取拷貝數突變模式的輸入文件需要包含以下列:
- 'Chromosome' - 染色體名稱,如 "chr1"
- 'Start.bp' - 片段起點
- 'End.bp' - 片段終點
- 'modal_cn' - 片段絕對拷貝數(整數)
- 'sample': - 樣本 ID
extract 命令
該命令推薦在突變記錄多、樣本多的情況下使用。
經過簡化,extract
命令只需要設置 4 個參數:
- 基因組版本
- hg19
- hg38
- mm10
- 模式
- SBS - 單鹼基替換
- DBS - 雙鹼基替換
- ID - 插入和刪除
- MAF - 包含上面 3 種
- CN - 拷貝數
- 最大 signature 數:默認是 -1,根據程序內部的設定運行。用戶可以從 2 調整到更大的數目。根據 TCGA 數據的分析顯示,一般各類癌症亞型的突變模式在 5 個及以下。
- NMF 運行次數:由於 NMF 算法存在起點的隨機性,爲了得到更好的結果,需要多次運行 NMF,一般推薦 30 到 50 左右。
設定好選項後點擊「提交」運行程序。
運行時間受到輸入數據大小和最後兩個選項的設定影響(10幾分鐘到數小時),請耐心等待程序結束。
任務完成後,在界面下方可以預覽一些輸出結果圖表,推薦點擊結果預覽右下側的下載按鈕下載所有的結果圖表📈。
fit 命令
fit 命令只需要設定 extract 命令提及的前 2 個參數,不再贅述。
fit 命令使用的是動態規劃算法尋找輸入數據基於 COSMIC 參考突變模式的最佳線性組合,算法很快,一般數百個樣本的處理過程可以在數分鐘內完成。
在 fit 的結果中,被 COSMIC 數據庫標記爲 artifact 的突變模式結果被去除了。
任務完成後,在界面下方可以預覽一些輸出結果圖表,推薦點擊結果預覽右下側的下載按鈕下載所有的結果圖表📈。