「r<-工具」在 Hiplot 中使用 Sigflow

介紹

突變模式(印記)分析(mutational signature analysis)目前已經成爲變異檢測後一個重要分析流程,它能夠揭示癌症組織樣本受哪些內外界因素的影響以及其貢獻大小。

Sigflow 是基於突變模式分析 R 包 sigminer 所構建的命令行流程軟件,提供了幾大突變模式分析流程,便於組學流程的對接與自動化分析。

在 Hiplot 平臺上,目前 Sigflow 開放了 2 個核心的子命令 extractfit

  • extract:自動利用非負矩陣分解(NMF)算法從頭識別突變模式,並將其與 COSMIC 突變模式數據庫進行相似性分析,輸出突變模式圖譜,突變模式貢獻圖譜,聚類結果等。
  • fit:直接利用 COSMIC 突變模式數據庫進行擬合分析,提供參考突變模式在樣本中的貢獻,輸出突變模式貢獻圖以及相關結果。

使用

在 Hiplot 平臺的進階模塊中,我們可以找到 Sigflow

點擊即可進行工具使用界面。

點擊數據文件右側的突變,可以載入示例輸入文件。一般而言,我們推薦使用標準的 MAF 格式文件作爲 SBS/DBS/INDEL 突變模式提取的輸入(包含同樣數據信息的 CSV/EXCEL 格式文件也支持);提取拷貝數突變模式的輸入文件需要包含以下列:

  • 'Chromosome' - 染色體名稱,如 "chr1"
  • 'Start.bp' - 片段起點
  • 'End.bp' - 片段終點
  • 'modal_cn' - 片段絕對拷貝數(整數)
  • 'sample': - 樣本 ID

extract 命令

該命令推薦在突變記錄多、樣本多的情況下使用。

經過簡化,extract 命令只需要設置 4 個參數:

  • 基因組版本
    • hg19
    • hg38
    • mm10
  • 模式
    • SBS - 單鹼基替換
    • DBS - 雙鹼基替換
    • ID - 插入和刪除
    • MAF - 包含上面 3 種
    • CN - 拷貝數
  • 最大 signature 數:默認是 -1,根據程序內部的設定運行。用戶可以從 2 調整到更大的數目。根據 TCGA 數據的分析顯示,一般各類癌症亞型的突變模式在 5 個及以下。
  • NMF 運行次數:由於 NMF 算法存在起點的隨機性,爲了得到更好的結果,需要多次運行 NMF,一般推薦 30 到 50 左右。

設定好選項後點擊「提交」運行程序。

運行時間受到輸入數據大小和最後兩個選項的設定影響(10幾分鐘到數小時),請耐心等待程序結束。

任務完成後,在界面下方可以預覽一些輸出結果圖表,推薦點擊結果預覽右下側的下載按鈕下載所有的結果圖表📈。

fit 命令

fit 命令只需要設定 extract 命令提及的前 2 個參數,不再贅述。

fit 命令使用的是動態規劃算法尋找輸入數據基於 COSMIC 參考突變模式的最佳線性組合,算法很快,一般數百個樣本的處理過程可以在數分鐘內完成。

在 fit 的結果中,被 COSMIC 數據庫標記爲 artifact 的突變模式結果被去除了。

任務完成後,在界面下方可以預覽一些輸出結果圖表,推薦點擊結果預覽右下側的下載按鈕下載所有的結果圖表📈。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章