Illumina下機數據bcl格式轉爲fastq

BCL2FASTQ

Illumina剛下機的數據爲bcl格式文件(per-cycle BCL basecall file),但是下游的分析一般都需要fastq格式文件,所以在進行下游分析之前,需要使用CASAVA軟甲中的configureBclToFastq.pl將bcl格式的文件根據每個樣本之前添加的index分出,並轉爲fastq格式的文件。在看bcl2fastq的說明文檔時,會經常碰到一個詞:demultiplexing,指的就是將multiplexed的reads根據index從不同或者同一個lane中分出,生成sample對應的fastq文件,這一步就涉及到輸入正確的samplesheet.csv。
所有的步驟只使用一行代碼就可以解決,首先貼出代碼:

#PBS -N bcl2fastq
#PBS -j oe      
#PBS -l walltime=5000:00:00  
#PBS -l nodes=c15:ppn=10
#PBS -q low 
#PBS -j n
nth=${PBS_NUM_PPN}
outdir=/path/to/personaldir/to/store/fastqfile
indir=/path/to/BaseCalls
/usr/local/bin/configureBclToFastq.pl --no-eamss \
                                      --use-bases-mask y51,I6nn,I0nnnnnnnn \   ###y51代表read長度,I6nn代表index長度爲6且由於本次測序人員的個人習慣,後面會外加兩個空鹼基,I0nnnnnnnn代表只使用了一個index即爲前面那個,此時仍需設定長度爲8
                                      --mismatches 1 \
                                      --input-dir $indir \
                                      --output-dir $outdir/raw \
                                      --sample-sheet $outdir/sample.csv \
                                      --fastq-cluster-count 0 --force

cd $outdir/raw   ###運行過程中會在輸出目錄產生產生MakeFile,需要指定到輸出目錄然後完成 * 

nohup make -j $nth   ##可多線程運行

剛下機數據的目錄構成以及默認情況下轉換後的目錄構成

重要的一點 一個正確格式的輸入:samplesheet.csv

官方實例以及各列名的解釋

![原始samplesheet來自測序人員]

整理後的各列及內容

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章