会了GEO数据下载，来看看怎么上传吧

原創

2020-08-14 08:26

刘小泽写于2020.8.12
第一次接触这个操作，下午跟着官网学习了下
果然，还是看官网的帮助文档最香~

1 注册NCBI GEO账号

先注册NCBI账号，在：https://www.ncbi.nlm.nih.gov/

然后注册GEO账号，在：https://www.ncbi.nlm.nih.gov/geo/submitter/

GEO可上传的数据类型种类主要集中在芯片和高通量数据，比如芯片数据的四大主流：Affymetrix、Agilent、Nimblegen、Illumina，高通量的RNA-Seq、ChIP-Seq、ATAC-Seq等。另外还有RT-PCR、SAGE数据可以上传

2 提交高通量测序数据须知

重点需要提交三部分：

实验总览（metadata spreadsheet）：参考样本 https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx
处理过后的数据（processed data files）：需要注意
- 不可以提交中间过程的比对文件（如BAM、SAM、BED），但如果结果只有这样的比对文件，可以写信给他们询问是否合格
- 一般来说，提交什么类型的数据取决于实验类型：
  - 表达量相关的数据：例如 genes, transcripts, exons, miRNA等表达量，需要原始表达矩阵或标准化后的表达矩阵（例如 Cufflinks, Cuffdiff, DESeq, edgeR的结果文件）。可以每个样本一个文件，也可以使用一整个表达矩阵，但需要包含全部基因和全部样本的信息（不可以只用差异基因）
  - ChIP-Seq数据：必须包含有关于peak丰度的文件（如WIG, bigWig, bedGraph）
- 所有处理过的文件描述都必须体现在metadata文件中
- 如果提交了WIG, bedGraph, GFF, GTF文件，格式需要参考： UCSC file format FAQ
原始数据（raw data files）： GEO的原始数据也是会提交给SRA
- 必须是包含reads、质量值的原始fastq格式，不符合要求的数据会直接从GEO系统中删除
- 如果测序数据使用了barcode（例如10x Genomics, Drop-Seq, InDrops的数据），可以提交不经过拆分的multiplexed files；对于其他多路复用（Multiplexed）的数据来说，必须要先经过demultiplex操作，将样本分开
- PE测序数据：一般每个run会产生两个数据（特殊情况下，每个run中的序列和质量值文件是分开的，也就是产生了4个文件）
- MD5Sum：推荐使用MD5验证数据，方法是：
  - Unix: md5sum <file>
  - OS X: md5 <file>
  - Windows: 需要用某些应用程序（如winmd5free）
- 关于数据压缩：为了加快传输，可以适当将数据压缩，但不强求。可以使用gzip、bzip2（后缀是.gz或.bz2），但不要压缩二进制文件（如BAM、bigWig、bigBed），也不要上传ZIP文件

3 GEO接受的数据与不可接受的数据

GEO可接受的

基因表达、基因调控、表观以及其他功能基因组学研究，例如

mRNA profiling, RNA-seq (example)
small RNA profiling, miRNA-seq (example)
ChIP-Seq (example)
HiC-seq (example)
methyl-seq, bisulfite-seq (example)

GEO不可接受的

需要权限访问的人类数据：可以提交给dbGaP and controlled access SRA
转录本组装：可以提交给 SRA 以及 Transcriptome Shotgun Assembly Database)
全基因组测序：可以提交给SRA and WGS
宏基因组测序：可以提交给SRA
重测序以及变异相关研究：可以提交给SRA 或合适的 variation resource
全外显子数据：可以提交给SRA

4 重头戏-实验总览（metadata spreadsheet）

参考样本： https://www.ncbi.nlm.nih.gov/geo/info/examples/seq_template.xlsx

总共包含7大块

4.1 SERIES

与文章相关的内容

标题（title）
摘要（summary）
实验设计（overall design）
参与者（contributor）：可以写多个
附件（supplementary file）

4.2 SAMPLES

与样本信息相关的内容

样本编号（Sample name）
样本名称（title）
样本来源（source name）
物种（organism）
样本描述（characteristics: strain、tissue、age、genotype、cell line、treatment）
与该样本相关的文件（molecule、processed data file 、raw file）

4.3 PROTOCOLS

样本的实验操作以及建库流程，简单描述即可

4.4 DATA PROCESSING PIPELINE

数据处理描述，比如基因组版本是什么、怎么比对、怎么过滤、怎么找peaks、怎么定量

4.5 PROCESSED DATA FILES

数据处理后的文件名称

file name
file type：除了raw count数据，其余可以统一写成abundance measurements
file checksum

4.6 RAW FILES

原始数据名称（file name）
文件类型（file type）：比如fastq
md5校验（file checksum）
测序仪器型号（instrument model）
单端or双端（single or paired-end）

4.7 PAIRED-END EXPERIMENTS

如果使用了双端测序数据，需要列出各自的名称

file name 1
file name 2

5 准备工作结束后，可以开始上传

上面的实验总览（metadata spreadsheet）、处理过后的数据（processed data files）、**原始数据（raw data files） ** 都准备好，就可以开始准备上传了

学习如何使用FileZilla进行上传

首先会看到自己的上传目录，一会将用到

然后设置FileZilla：

host (ftp-private.ncbi.nlm.nih.gov)
username (geoftp)
password (rebUzyi1)

此时会发生报错，忽略它

修改Remote site，然后回车连接：

最后就可以将本地数据上传到GEO指定位置了

Tips：为了避免FileZilla上传过程出现中断，可以设置断点续传

6 最后，提醒GEO数据上传完成

并且会提示再核实一遍信息，没有问题的话5个工作日内就会进行审核

欢迎关注我们的公众号～_～　　
我们是两个农转生信的小硕，打造生信星球，想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到[email protected]

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

相關文章

京东面试：如何进行JVM调优？

JVM 調優是一個很大的話題，在回答“如何進行 JVM 調優？”之前，首先我們要回答一個更爲關鍵的問題，那就是，我們爲什麼要進行 JVM 調優？只有知道了爲什麼要進行 JVM 調優之後，你才能準確的回答出來如何進行 JVM 調優？要進行

Java中文社羣

2024-05-21 14:43:06

WinSW——将.exe文件注册为服务的一个工具

https://github.com/winsw/winsw

2024-05-21 14:34:55

Azure Service Principals ----- Azure 上最好保守的秘密的服务

一，引言　　Azure Service Principals 是 Azure Active Directory (AAD) 中的一種標識，代表應用程序，服務，自動化流程。Service Principals 支持各種 Azure 服務和資

2024-05-21 14:34:25

程序设计思路-球连球组成的群

　　編碼設計有很多思路，都是在簡化映射實際問題時遇到的問題。　　之前和別人交流，得到一句“把它放在同一個地方好維護”，相同的功能只出現在一個地方。就會出現代碼的聚合設計，也就是一種通用的功能索引，或者說面向對象的思想。　　首先程序可以被

2024-05-21 14:32:55

Flink内存模型

之前聊Flink的slot時簡單提到過內存，Flink計算框架的內存大致分爲Flink使用的內存、Jvm使用的內存。Flink爲什麼不全使用JVM內存的原因是顯而易見的，作爲實時計算框架，JVM內存依賴GC自動回收一旦稍微慢一點，就會對

人不瘋狂枉一生

2024-05-21 14:32:45

Flink富函数

富函數是DataStream API提供的函數接口，Flink的函數都有它的Rich版本，它與其他函數不同的是，富函數可以獲取到運行環境上下文，初始化參數，擁有生命週期方法等，可通過它進行自定義複雜功能。我們常見的如RichMapFu

人不瘋狂枉一生

2024-05-21 14:32:45

YiShaAdmin：一款基于.NET Core Web + Bootstrap的企业级快速开发框架

前言今天大姚給大家分享一款基於.NET Core Web + Bootstrap的企業級快速後臺開發框架、權限管理系統，代碼簡單易懂、界面簡潔美觀（基於MIT License開源，免費可商用）：YiShaAdmin。項目官方介紹 YiS

2024-05-21 14:31:45

美团一面：项目中有 10000 个 if else 如何优化？想了半天，被问懵了！

大家好，我是R哥。最近做 Java 面試輔導，有個兄弟面試美團，遇到一個特別有意思的問題：一萬個 if else 如何優化，有好的解決方案嗎？我看到這問題都有點懵逼，現實項目中怎麼可能會有 10000 個 if else 的代碼

2024-05-21 14:31:14

一种精度更高的hopf直线检测策略, 一种高精度边缘检测方法.

#aaa是cv.read圖片. img = aaaa.copy() gray = cv2.cvtColor(img,cv2.COLOR_BGR2GRAY) ret, binary = cv2.threshold(gray, 0, 25

張博的博客

2024-05-21 14:29:34

深入了解安全工具Vault、Vault根令牌和解封密钥，详细整理部署Vault的详细步骤

一、深入瞭解安全工具Vault Vault是一種開源工具，用於安全地存儲、管理和控制訪問各種機密信息，如密碼、API令牌、安全配置和其他敏感數據。Vault使用強大的加密和安全管理技術來保護這些機密信息，併爲應用程序和服務提供安全的訪問

2024-05-21 14:23:34

keycloak~作为第三方登录的对接标准

當某些合作商希望把你的keycloak作爲他們的一種第三方登錄方式時，就像微信，google，github，使用你的keycloak上的賬戶資源時，你就需要考慮如何做一個開放的，標準的文檔了。一基本角色認證提供者：keycloak服

2024-05-21 14:22:24

hdu4027（线段树区间操作）

Problem - 4027 (hdu.edu.cn)許多邪惡的戰艦在戰鬥前排成一排。我們的指揮官決定使用我們的祕密武器來消滅戰列艦。每艘戰列艦都可以標記爲耐力值。對於我們祕密武器的每一次攻擊，它都可能降低連續部分戰列艦的續航能力，使它們

2024-05-21 14:20:03

Python 将PowerPoint (PPT/PPTX) 转为HTML

PPT是傳遞信息、進行彙報和推廣產品的重要工具。然而，有時我們需要將這些精心設計的PPT演示文稿發佈到網絡上，以便於更廣泛的訪問和分享。本文將介紹如何使用Python將PowerPoint文檔轉換爲網頁友好的HTML格式。包含兩個簡單示例：

2024-05-21 14:19:53

如何构建一个系统

假設有要處理的數據 A1 A2 A3 ... 你想要設計一個功能 F，這個F應該處理數據 Ai，那麼你需要編寫程序P=F，是的： O1 = F(A1) O2 = F(A2) O3 = F(A3) ... 如果寫了個F，一次就解決了，那就萬事

2024-05-21 14:18:13

172.22.56.0/22

172.22.56.0/22 56對應的二進制是00111000, 16+6=22。所以第三個byte的後面2位bit可以使用。 The IP address and subnet mask you provided, 172.22.5

2024-05-21 14:16:52

24小時熱門文章

最新文章

最新評論文章