從中國核酸數據庫GSA下載單細胞數據

第一次使用GSA大約是2018年，那一次是往該數據庫上傳數據。

單細胞數據呈指數增長，對一個實驗室也好，對一家科研單位也好，對一個國家也好，數據的管理顯得日益重要。數據管理在技術上是平臺的搭建，做好平臺，大家可以在上傳和下載或者分析數據。今天我們介紹一下如何從中國核酸數據庫（GSA）下載單細胞轉錄組原始數據，並Run 起Cellragner(其他平臺自然換成他們的定量軟件)。

組學原始數據歸檔庫（GSA）屬於生物數據遞交系統(BIG Submission, BIG Sub)，後者是國家基因組科學數據中心生物數據統一匯交入口，爲用戶提供一站式數據遞交服務。

https://bigd.big.ac.cn/gsub/

數據庫後臺對科學家是十分友好的，有專屬的用戶QQ羣，在使用過程中遇到問題可以隨時在羣裏諮詢（主要是漢語），既有工作人員，也有我這樣的使用過的同學，爲您排憂解惑。

首先，我們有一篇文章需要下載，一看Data availability剛好在我們的GSA數據庫中：

我們點擊HRA的編號鏈接，後進入該數據的主頁：

這樣，再點擊Request Data，如果是第一次使用就需要註冊啦。

基本上按照提示就可以完成註冊啦。注意註冊郵箱和個人主頁需要是學術單位的哦，用戶註冊他們也是要審覈的。滿足條件的話，通過是很快的啦。

合法登陸之後，就可以開始申請數據了。我們可以在GSA搜索前面的編號，可以從文章鏈接轉到Request頁面，申請數據需要說明申請數據主要用於什麼，需要的信息是：

每一項簡明扼要寫清楚即可。

在申請的結尾處有一個GSA-Human 數據訪問協議，這個還是建議認真看看的，主要是一些法律條文。 agree之後，申請工作就算完成啦，接下來是等待審覈。

這個看文章作者和平臺的審覈速度啦，建議申請通過就兩天沒動靜和工作人員說一下，看看在哪裏有卡點，及時通過郵件聯繫。

數據申請通過之後，申請的列表是這樣的：

點擊download就可以看到ftp鏈接了，這時候可用Filezilla下載，如果數據較大，建議用wget下載，直接批量地下到集羣:

wget   -b -c  --user=申請時候的用戶名  --password=密碼  --mirror ftp://鏈接

如果下載有困難除了在羣裏諮詢，您還可以申請郵寄：

下載完之後，我們知道要RunCellranger 至少需要兩個fq。當然，在看文章的時候，我們就已經知道這裏的數據是用哪個平臺做的了，需要注意的是，10X平臺試劑軟件版本更新較快，最好文章用哪個版本的數據我們就用哪個版本的，比如V2 和V3的試劑barcode長度不同了，有可能影響cell calling的結果。所以我們需要看看自己下載的fq數據長得是什麼樣子的，特別是reads1。

下載完數據後，至少要：

檢查文件完整性
下載文件的ID和臨牀信息匹配
檢查fq的分佈格式
fq文件重命名成cellranger需要的格式

接下來可以Run 上Cellranger了。

cellranger count --id=run_count_1kpbmcs \
--fastqs=/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/refdata-cellranger-GRCh38-3.0.0

然後就是降維聚類必知必會balabala了。

其實有文檔的啦：

人類遺傳資源組學原始數據歸檔庫數據申請及下載說明
組學原始數據歸檔庫（GSA）使用說明

中國核酸數據庫GSA數據提交指南

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

從中國核酸數據庫GSA下載單細胞數據

讀《基因泰克》

讀《理解生物信息學》

讀《Computational-method-for-single-cell-data-analysis》

讀《Handbook of Single-Cell Technologies》

PMBOK之旅|| 初識PMBOK

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結