會了GEO數據下載,來看看怎麼上傳吧

劉小澤寫於2020.8.12
第一次接觸這個操作,下午跟着官網學習了下
​果然,還是看官網的幫助文檔最香~

1 註冊NCBI GEO賬號

先註冊NCBI賬號,在:https://www.ncbi.nlm.nih.gov/

然後註冊GEO賬號,在:https://www.ncbi.nlm.nih.gov/geo/submitter/

GEO可上傳的數據類型種類主要集中在芯片和高通量數據,比如芯片數據的四大主流:Affymetrix、Agilent、Nimblegen、Illumina,高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外還有RT-PCR、SAGE數據可以上傳

2 提交高通量測序數據須知

重點需要提交三部分:

  1. 實驗總覽(metadata spreadsheet):參考樣本 https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
  2. 處理過後的數據(processed data files):需要注意
    • 不可以提交中間過程的比對文件(如BAM、SAM、BED),但如果結果只有這樣的比對文件,可以寫信給他們詢問是否合格
    • 一般來說,提交什麼類型的數據取決於實驗類型:
      • 表達量相關的數據:例如 genes, transcripts, exons, miRNA等表達量,需要原始表達矩陣 或 標準化後的表達矩陣(例如 Cufflinks, Cuffdiff, DESeq, edgeR的結果文件)。可以每個樣本一個文件,也可以使用一整個表達矩陣,但需要包含全部基因和全部樣本的信息(不可以只用差異基因)
      • ChIP-Seq數據:必須包含有關於peak丰度的文件(如WIG, bigWig, bedGraph)
    • 所有處理過的文件描述都必須體現在metadata文件中
    • 如果提交了WIG, bedGraph, GFF, GTF文件,格式需要參考: UCSC file format FAQ
  3. 原始數據(raw data files): GEO的原始數據也是會提交給SRA
    • 必須是包含reads、質量值的原始fastq格式,不符合要求的數據會直接從GEO系統中刪除
    • 如果測序數據使用了barcode(例如10x Genomics, Drop-Seq, InDrops的數據),可以提交不經過拆分的multiplexed files;對於其他多路複用(Multiplexed)的數據來說,必須要先經過demultiplex操作,將樣本分開
    • PE測序數據:一般每個run會產生兩個數據(特殊情況下,每個run中的序列和質量值文件是分開的,也就是產生了4個文件)
    • MD5Sum:推薦使用MD5驗證數據,方法是:
      • Unix: md5sum <file>
      • OS X: md5 <file>
      • Windows: 需要用某些應用程序(如winmd5free
    • 關於數據壓縮:爲了加快傳輸,可以適當將數據壓縮,但不強求。可以使用gzip、bzip2(後綴是.gz.bz2) ,但不要壓縮二進制文件(如BAM、bigWig、bigBed),也不要上傳ZIP文件

3 GEO接受的數據與不可接受的數據

GEO可接受的

基因表達、基因調控、表觀以及其他功能基因組學研究,例如

GEO不可接受的

4 重頭戲-實驗總覽(metadata spreadsheet)

參考樣本: https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

總共包含7大塊

4.1 SERIES

與文章相關的內容

  • 標題(title)
  • 摘要(summary)
  • 實驗設計(overall design)
  • 參與者(contributor):可以寫多個
  • 附件(supplementary file)
4.2 SAMPLES

與樣本信息相關的內容

  • 樣本編號(Sample name)
  • 樣本名稱(title)
  • 樣本來源(source name)
  • 物種(organism)
  • 樣本描述(characteristics: strain、tissue、age、genotype、cell line、treatment)
  • 與該樣本相關的文件(molecule、processed data file 、raw file)
4.3 PROTOCOLS

樣本的實驗操作以及建庫流程,簡單描述即可

4.4 DATA PROCESSING PIPELINE

數據處理描述,比如基因組版本是什麼、怎麼比對、怎麼過濾、怎麼找peaks、怎麼定量

4.5 PROCESSED DATA FILES

數據處理後的文件名稱

  • file name
  • file type:除了raw count數據,其餘可以統一寫成abundance measurements
  • file checksum
4.6 RAW FILES
  • 原始數據名稱(file name)
  • 文件類型(file type):比如fastq
  • md5校驗(file checksum)
  • 測序儀器型號(instrument model)
  • 單端or雙端(single or paired-end)
4.7 PAIRED-END EXPERIMENTS

如果使用了雙端測序數據,需要列出各自的名稱

  • file name 1
  • file name 2

5 準備工作結束後,可以開始上傳

上面的實驗總覽(metadata spreadsheet)處理過後的數據(processed data files)、**原始數據(raw data files) ** 都準備好,就可以開始準備上傳了

學習如何使用FileZilla進行上傳

首先會看到自己的上傳目錄,一會將用到

然後設置FileZilla:

  • host (ftp-private.ncbi.nlm.nih.gov)
  • username (geoftp)
  • password (rebUzyi1)

此時會發生報錯,忽略它

修改Remote site,然後回車連接:

最後就可以將本地數據上傳到GEO指定位置了

Tips:爲了避免FileZilla上傳過程出現中斷,可以設置斷點續傳

6 最後,提醒GEO數據上傳完成

並且會提示再覈實一遍信息,沒有問題的話5個工作日內就會進行審覈


歡迎關注我們的公衆號~_~  
我們是兩個農轉生信的小碩,打造生信星球,想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或發送郵件到[email protected]

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章