會了GEO數據下載，來看看怎麼上傳吧

原創

2020-08-14 08:26

劉小澤寫於2020.8.12
第一次接觸這個操作，下午跟着官網學習了下
果然，還是看官網的幫助文檔最香~

1 註冊NCBI GEO賬號

先註冊NCBI賬號，在：https://www.ncbi.nlm.nih.gov/

然後註冊GEO賬號，在：https://www.ncbi.nlm.nih.gov/geo/submitter/

GEO可上傳的數據類型種類主要集中在芯片和高通量數據，比如芯片數據的四大主流：Affymetrix、Agilent、Nimblegen、Illumina，高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外還有RT-PCR、SAGE數據可以上傳

2 提交高通量測序數據須知

重點需要提交三部分：

實驗總覽（metadata spreadsheet）：參考樣本 https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
處理過後的數據（processed data files）：需要注意
- 不可以提交中間過程的比對文件（如BAM、SAM、BED），但如果結果只有這樣的比對文件，可以寫信給他們詢問是否合格
- 一般來說，提交什麼類型的數據取決於實驗類型：
  - 表達量相關的數據：例如 genes, transcripts, exons, miRNA等表達量，需要原始表達矩陣或標準化後的表達矩陣（例如 Cufflinks, Cuffdiff, DESeq, edgeR的結果文件）。可以每個樣本一個文件，也可以使用一整個表達矩陣，但需要包含全部基因和全部樣本的信息（不可以只用差異基因）
  - ChIP-Seq數據：必須包含有關於peak丰度的文件（如WIG, bigWig, bedGraph）
- 所有處理過的文件描述都必須體現在metadata文件中
- 如果提交了WIG, bedGraph, GFF, GTF文件，格式需要參考： UCSC file format FAQ
原始數據（raw data files）： GEO的原始數據也是會提交給SRA
- 必須是包含reads、質量值的原始fastq格式，不符合要求的數據會直接從GEO系統中刪除
- 如果測序數據使用了barcode（例如10x Genomics, Drop-Seq, InDrops的數據），可以提交不經過拆分的multiplexed files；對於其他多路複用（Multiplexed）的數據來說，必須要先經過demultiplex操作，將樣本分開
- PE測序數據：一般每個run會產生兩個數據（特殊情況下，每個run中的序列和質量值文件是分開的，也就是產生了4個文件）
- MD5Sum：推薦使用MD5驗證數據，方法是：
  - Unix: md5sum <file>
  - OS X: md5 <file>
  - Windows: 需要用某些應用程序（如winmd5free）
- 關於數據壓縮：爲了加快傳輸，可以適當將數據壓縮，但不強求。可以使用gzip、bzip2（後綴是.gz或.bz2），但不要壓縮二進制文件（如BAM、bigWig、bigBed），也不要上傳ZIP文件

3 GEO接受的數據與不可接受的數據

GEO可接受的

基因表達、基因調控、表觀以及其他功能基因組學研究，例如

mRNA profiling, RNA-seq (example)
small RNA profiling, miRNA-seq (example)
ChIP-Seq (example)
HiC-seq (example)
methyl-seq, bisulfite-seq (example)

GEO不可接受的

需要權限訪問的人類數據：可以提交給dbGaP and controlled access SRA
轉錄本組裝：可以提交給 SRA 以及 Transcriptome Shotgun Assembly Database)
全基因組測序：可以提交給SRA and WGS
宏基因組測序：可以提交給SRA
重測序以及變異相關研究：可以提交給SRA 或合適的 variation resource
全外顯子數據：可以提交給SRA

4 重頭戲-實驗總覽（metadata spreadsheet）

參考樣本： https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

總共包含7大塊

4.1 SERIES

與文章相關的內容

標題（title）
摘要（summary）
實驗設計（overall design）
參與者（contributor）：可以寫多個
附件（supplementary file）

4.2 SAMPLES

與樣本信息相關的內容

樣本編號（Sample name）
樣本名稱（title）
樣本來源（source name）
物種（organism）
樣本描述（characteristics: strain、tissue、age、genotype、cell line、treatment）
與該樣本相關的文件（molecule、processed data file 、raw file）

4.3 PROTOCOLS

樣本的實驗操作以及建庫流程，簡單描述即可

4.4 DATA PROCESSING PIPELINE

數據處理描述，比如基因組版本是什麼、怎麼比對、怎麼過濾、怎麼找peaks、怎麼定量

4.5 PROCESSED DATA FILES

數據處理後的文件名稱

file name
file type：除了raw count數據，其餘可以統一寫成abundance measurements
file checksum

4.6 RAW FILES

原始數據名稱（file name）
文件類型（file type）：比如fastq
md5校驗（file checksum）
測序儀器型號（instrument model）
單端or雙端（single or paired-end）

4.7 PAIRED-END EXPERIMENTS

如果使用了雙端測序數據，需要列出各自的名稱

file name 1
file name 2

5 準備工作結束後，可以開始上傳

上面的實驗總覽（metadata spreadsheet）、處理過後的數據（processed data files）、**原始數據（raw data files） ** 都準備好，就可以開始準備上傳了

學習如何使用FileZilla進行上傳

首先會看到自己的上傳目錄，一會將用到

然後設置FileZilla：

host (ftp-private.ncbi.nlm.nih.gov)
username (geoftp)
password (rebUzyi1)

此時會發生報錯，忽略它

修改Remote site，然後回車連接：

最後就可以將本地數據上傳到GEO指定位置了

Tips：爲了避免FileZilla上傳過程出現中斷，可以設置斷點續傳

6 最後，提醒GEO數據上傳完成

並且會提示再覈實一遍信息，沒有問題的話5個工作日內就會進行審覈

歡迎關注我們的公衆號～_～　　
我們是兩個農轉生信的小碩，打造生信星球，想讓它成爲一個不拽術語、通俗易懂的生信知識平臺。需要幫助或提出意見請後臺留言或發送郵件到[email protected]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

在Avalonia中，如何移除高度的值，使其爲NaN

MainBody.Height = double.NaN;//移除該屬性值這樣就能自適應高度了

2024-04-30 14:27:14

nginx反向代理與證書設置

server { listen 443 ssl; server_name your.domain.com; ssl_certificate /path/to/certificate.crt; ssl_ce

2024-04-30 14:25:14

免費證書certbot-aliyun

FROM certbot/certbot RUN pip install certbot-dns-aliyun docker build -t certbot-aliyun . # Aliyun DNS credentials

2024-04-30 14:25:14

通過Http鏈接地址爬取有贊微信商城商品信息及下載至EXCEL

一、環境開發環境： Microsoft Visual Studio Professional 2022 (2) (64 位) - Current版本 17.7.7 .net core 6.0 AngleSharp 1.1.2 AngleS

2024-04-30 14:22:03

多人同時導出 Excel 幹崩服務器！新來的阿里大佬給出的解決方案太優雅了！

來源：juejin.cn/post/7259249904777838629 前言業務訴求：考慮到數據庫數據日漸增多，導出會有全量數據的導出，多人同時導出可以會對服務性能造成影響，導出涉及到mysql查詢的io操作，還涉及文件輸入、輸出流的

2024-04-30 14:21:33

golang將uint32與byte[]互轉

package main import ( "encoding/binary" "fmt" ) func main() { // 一個長度爲4的byte切片，表示一個負數 bytes := []byte{0xFF, 0xFF,

藍天上的雲℡

2024-04-30 14:21:33

Linux內核源碼-存儲驅動之 QSPI Flash

傳輸方式 DIO/QIO/DOUT/QPI QPI模式(Quad Peripheral Interface)，所有階段都通過4線傳輸。與之相對的是SPI。 SPI模式：純種SPI(MISO/MOSI兩個數據線) DOUT 全稱 Dua

藍天上的雲℡

2024-04-30 14:21:33

一個園上面點3個點, 成鈍角三角形概率多大?

答案1/4 要有數學上的順序的概念.

張博的博客

2024-04-30 14:20:03

python找不到自己的寫的庫包或者文件

import sys sys.path.append('../..') sys.path.append('.') sys.path.append('./') 把這些路徑都加入sys.path就找到了.

張博的博客

2024-04-30 14:20:02

符文Runes協議技術詳解

最近符文Runes協議是比特幣生態最火的項目，於是我利用晚上的時間，把Runes協議使用Go語言實現了一遍，項目地址：https://github.com/bxelab/runestone，另外也基於這個Runestone庫編寫對應的一個命

2024-04-30 14:18:02

《最新出爐》系列入門篇-Python+Playwright自動化測試-41-錄製視頻

1.簡介上一篇講解和分享了錄製自動生成腳本，索性連帶錄製視頻也一股腦的在這裏就講解和分享了。今天我們將學習如何使用Playwright和Python來錄製瀏覽器操作的視頻，以便在需要時進行回放和分析。 2.錄製視頻語法錄製視頻介紹官方A

2024-04-30 14:14:41

MFC文本設置字體發虛的問題

MFC 文本設置字體發虛的問題最近在做一項目中，發現默認的字體比較正常，字體如下：字體比較清晰，在代碼加入如下設置字體項後，反而顯示發虛，模糊 CFont * m_font= new CFont; m_font->CreatePoin

2024-04-30 14:13:31

算法~利用zset實現滑動窗口限流

滑動窗口限流滑動窗口限流是一種常用的限流算法，通過維護一個固定大小的窗口，在單位時間內允許通過的請求次數不超過設定的閾值。具體來說，滑動窗口限流算法通常包括以下幾個步驟：初始化：設置窗口大小、請求次數閾值和時間間隔。維護窗口：將請求

2024-04-30 14:12:40

springboot~AutoConfigureAfter如何控制Bean的注入順序

這個文章主要介紹一下@AutoConfigureAfter在spring框架中的作用，在使用過程中，很多開發人員在使用它的時候都出現了問題，問題比較多的就是它們的註冊順序總不是我們預期的，下面介紹一下正常的使用方法。 @AutoConfi

2024-04-30 14:12:40

java~graalVM虛擬機

GraalVM GraalVM 是一種高性能、通用的虛擬機，由 Oracle 公司開發。它支持多種編程語言（如 Java、JavaScript、Python 等），並提供了即時編譯器、AOT 編譯器等功能。GraalVM 的主要特點包括：

2024-04-30 14:12:40

24小時熱門文章

Window 安裝 Python 失敗 0x80070643，發生嚴重錯誤

最新文章

最新評論文章