跟着Briefings in Bioinformatics學數據分析:植物線粒體基因組組裝流程GSAT初步嘗試

論文

Master graph: an essential integrated assembly model for the plant mitogenome based on a graph-based framework

https://academic.oup.com/bib/article-abstract/24/1/bbac522/6854450?redirectedFrom=fulltext&login=false

bbac522.pdf

軟件的github鏈接 https://github.com/hwc2021/GSAT

論文作者在CGM基因組沙龍做了學術報告,錄屏在B站可以找到,鏈接是 https://www.bilibili.com/video/BV1v24y1h7Nw/?spm_id_from=333.999.0.0

論文中作者利用自己開發的流程組裝了擬南芥和水稻的圖形化的線粒體基因組,我找到了論文中擬南芥的數據,重複了一下整個過程,這篇推文做一個記錄

擬南芥的全基因組測序數據,包括ngs hifi ont 來源於論文 https://www.sciencedirect.com/science/article/pii/S1672022921001741

數據可以從國家基因組科學數據中心下載,之前也寫了推文進行介紹

這個流程的第一步是使用spades這個軟件利用二代測序數據進行一個初步的組裝,這一步如果是利用完整的全基因組測序數據去做的話時間會非常長,而且得到的結果也不理想(不知道是不是我自己的做法存在問題)。

這一步我去下載了NCBI已經有的擬南芥線粒體基因組序列,把二代全基因組測序數據比對到這個線粒體基因組,然後提取比對上的reads,最後用比對上的reads去做GSAT流程的第一步

比對(bowtie2)提取reads的代碼

bowtie2-build at_mt.fasta at_mt.index/atmito
bowtie2 -p 8 --local -x at_mt.index/atmito -1 ../ngs/CRR302670_f1.fastq.gz -2 ../ngs/CRR302670_r2.fastq.gz -S atMito.sam
samtools sort -@ 8 atMito.sam -O bam -o atMito.sorted.bam
samtools index atMito.sorted.bam
grep '>' at_mt.fasta | awk '{print $1}' | awk 'gsub(">","")' > chr.list
python get_mapped_paired_end_reads_from_bam.py --bam atMito.sorted.bam --chrlist chr.list --or1 r1.fq --or2 r2.fq
bgzip r1.fq
bgzip r2.fq

然後按照GSAT 這個流程的github主頁的文檔去運行,運行這個流程需要提供config文件,config文件裏的參數除了文件路徑其他的我都沒有改,因爲還不明白每個參數起到的作用

這個流程是用perl語言寫的,第一次使用可能會提示有一些perl的模塊沒有安裝,需要對應的安裝好相應的模塊,因爲我不太熟悉perl語言,perl模塊的安裝對於我來說一直是一個難點,還好這次沒有遇到太多的報錯

流程第一步

~/biotools/GSAT/bin/gsat graphShort -conf example.conf.short.reads

得到結果

這一步用到的是二代測序數據,接下來的內容全部用到的是三代測序數據

作者在論文裏寫道是推薦用Hifi數據的,但是我hifi數據還沒有下載,暫時用ont的數據做下面的三個步驟

首先是選取一部分數據,因爲總的數據量很大

zcat ../ont/CRR302667.fastq.gz | ~/biotools/seqkit/seqkit sample -p 0.2 -s 1234 -o at.ont.long.reads.fq.gz

~/biotools/seqkit/seqkit fq2fa at.ont.long.reads.fq.gz -o at.ont.long.reads.fa

第二步流程

~/biotools/GSAT/bin/gsat graphLong -conf example.conf.long.reads.01

得到結果

第三步流程

~/biotools/GSAT/bin/gsat graphSimplification -conf example.conf.long.reads.02

得到結果

第四步流程

~/biotools/GSAT/bin/gsat graphCorrection -conf example.conf.long.reads.03

得到結果

大體的流程能夠走下來,但是後續如何處理還不明白,論文中提到的分析也還有好多看不懂,還需要多看幾遍

歡迎大家關注我的公衆號

小明的數據分析筆記本

小明的數據分析筆記本 公衆號 主要分享:1、R語言和python做數據分析和數據可視化的簡單小例子;2、園藝植物相關轉錄組學、基因組學、羣體遺傳學文獻閱讀筆記;3、生物信息學入門學習資料及自己的學習筆記!

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章