劉小澤寫於2020.8.12
第一次接觸這個操作,下午跟着官網學習了下
果然,還是看官網的幫助文檔最香~
1 註冊NCBI GEO賬號
先註冊NCBI賬號,在:https://www.ncbi.nlm.nih.gov/
然後註冊GEO賬號,在:https://www.ncbi.nlm.nih.gov/geo/submitter/
GEO可上傳的數據類型種類主要集中在芯片和高通量數據,比如芯片數據的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外還有RT-PCR、SAGE數據可以上傳
2 提交高通量測序數據須知
重點需要提交三部分:
- 實驗總覽(metadata spreadsheet):參考樣本 https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
-
處理過後的數據(processed data files):需要注意
- 不可以提交中間過程的比對文件(如BAM、SAM、BED),但如果結果只有這樣的比對文件,可以寫信給他們詢問是否合格
- 一般來說,提交什麼類型的數據取決於實驗類型:
- 表達量相關的數據:例如 genes, transcripts, exons, miRNA等表達量,需要原始表達矩陣 或 標準化後的表達矩陣(例如 Cufflinks, Cuffdiff, DESeq, edgeR的結果文件)。可以每個樣本一個文件,也可以使用一整個表達矩陣,但需要包含全部基因和全部樣本的信息(不可以只用差異基因)
- ChIP-Seq數據:必須包含有關於peak丰度的文件(如WIG, bigWig, bedGraph)
- 所有處理過的文件描述都必須體現在metadata文件中
- 如果提交了WIG, bedGraph, GFF, GTF文件,格式需要參考: UCSC file format FAQ
-
原始數據(raw data files): GEO的原始數據也是會提交給SRA
- 必須是包含reads、質量值的原始fastq格式,不符合要求的數據會直接從GEO系統中刪除
- 如果測序數據使用了barcode(例如10x Genomics, Drop-Seq, InDrops的數據),可以提交不經過拆分的multiplexed files;對於其他多路複用(Multiplexed)的數據來說,必須要先經過demultiplex操作,將樣本分開
- PE測序數據:一般每個run會產生兩個數據(特殊情況下,每個run中的序列和質量值文件是分開的,也就是產生了4個文件)
- MD5Sum:推薦使用MD5驗證數據,方法是:
- Unix:
md5sum <file>
- OS X:
md5 <file>
- Windows: 需要用某些應用程序(如
winmd5free
)
- Unix:
- 關於數據壓縮:爲了加快傳輸,可以適當將數據壓縮,但不強求。可以使用gzip、bzip2(後綴是
.gz
或.bz2
) ,但不要壓縮二進制文件(如BAM、bigWig、bigBed),也不要上傳ZIP文件
3 GEO接受的數據與不可接受的數據
GEO可接受的
基因表達、基因調控、表觀以及其他功能基因組學研究,例如
- mRNA profiling, RNA-seq (example)
- small RNA profiling, miRNA-seq (example)
- ChIP-Seq (example)
- HiC-seq (example)
- methyl-seq, bisulfite-seq (example)
GEO不可接受的
需要權限訪問的人類數據:可以提交給dbGaP and controlled access SRA
轉錄本組裝:可以提交給 SRA 以及 Transcriptome Shotgun Assembly Database)
宏基因組測序:可以提交給SRA
重測序以及變異相關研究:可以提交給SRA 或 合適的 variation resource
全外顯子數據:可以提交給SRA
4 重頭戲-實驗總覽(metadata spreadsheet)
參考樣本: https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
總共包含7大塊
4.1 SERIES
與文章相關的內容
- 標題(title)
- 摘要(summary)
- 實驗設計(overall design)
- 參與者(contributor):可以寫多個
- 附件(supplementary file)
4.2 SAMPLES
與樣本信息相關的內容
- 樣本編號(Sample name)
- 樣本名稱(title)
- 樣本來源(source name)
- 物種(organism)
- 樣本描述(characteristics: strain、tissue、age、genotype、cell line、treatment)
- 與該樣本相關的文件(molecule、processed data file 、raw file)
4.3 PROTOCOLS
樣本的實驗操作以及建庫流程,簡單描述即可
4.4 DATA PROCESSING PIPELINE
數據處理描述,比如基因組版本是什麼、怎麼比對、怎麼過濾、怎麼找peaks、怎麼定量
4.5 PROCESSED DATA FILES
數據處理後的文件名稱
- file name
- file type:除了raw count數據,其餘可以統一寫成abundance measurements
- file checksum
4.6 RAW FILES
- 原始數據名稱(file name)
- 文件類型(file type):比如fastq
- md5校驗(file checksum)
- 測序儀器型號(instrument model)
- 單端or雙端(single or paired-end)
4.7 PAIRED-END EXPERIMENTS
如果使用了雙端測序數據,需要列出各自的名稱
- file name 1
- file name 2
5 準備工作結束後,可以開始上傳
上面的實驗總覽(metadata spreadsheet)、處理過後的數據(processed data files)、**原始數據(raw data files) ** 都準備好,就可以開始準備上傳了
學習如何使用FileZilla進行上傳
首先會看到自己的上傳目錄,一會將用到
然後設置FileZilla:
- host (ftp-private.ncbi.nlm.nih.gov)
- username (geoftp)
- password (rebUzyi1)
此時會發生報錯,忽略它
修改Remote site,然後回車連接:
最後就可以將本地數據上傳到GEO指定位置了
Tips:爲了避免FileZilla上傳過程出現中斷,可以設置斷點續傳
6 最後,提醒GEO數據上傳完成
並且會提示再覈實一遍信息,沒有問題的話5個工作日內就會進行審覈
歡迎關注我們的公衆號~_~
我們是兩個農轉生信的小碩,打造生信星球,想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或發送郵件到[email protected]