從中國核酸數據庫GSA下載單細胞數據

第一次使用GSA大約是2018年,那一次是往該數據庫上傳數據。

單細胞數據呈指數增長,對一個實驗室也好,對一家科研單位也好,對一個國家也好,數據的管理顯得日益重要。數據管理在技術上是平臺的搭建,做好平臺,大家可以在上傳和下載或者分析數據。今天我們介紹一下如何從中國核酸數據庫(GSA)下載單細胞轉錄組原始數據,並Run 起Cellragner(其他平臺自然換成他們的定量軟件)。

組學原始數據歸檔庫(GSA)屬於生物數據遞交系統(BIG Submission, BIG Sub),後者是國家基因組科學數據中心生物數據統一匯交入口,爲用戶提供一站式數據遞交服務。

https://bigd.big.ac.cn/gsub/

數據庫後臺對科學家是十分友好的,有專屬的用戶QQ羣,在使用過程中遇到問題可以隨時在羣裏諮詢(主要是漢語),既有工作人員,也有我這樣的使用過的同學,爲您排憂解惑。

首先,我們有一篇文章需要下載,一看Data availability剛好在我們的GSA數據庫中:

我們點擊HRA的編號鏈接,後進入該數據的主頁:

這樣,再點擊Request Data,如果是第一次使用就需要註冊啦。

基本上按照提示就可以完成註冊啦。注意註冊郵箱和個人主頁需要是學術單位的哦,用戶註冊他們也是要審覈的。滿足條件的話,通過是很快的啦。

合法登陸之後,就可以開始申請數據了。我們可以在GSA搜索前面的編號,可以從文章鏈接轉到Request頁面,申請數據需要說明申請數據主要用於什麼,需要的信息是:


每一項簡明扼要寫清楚即可。

在申請的結尾處有一個GSA-Human 數據訪問協議,這個還是建議認真看看的,主要是一些法律條文。 agree之後,申請工作就算完成啦,接下來是等待審覈。

這個看文章作者和平臺的審覈速度啦,建議申請通過就兩天沒動靜和工作人員說一下,看看在哪裏有卡點,及時通過郵件聯繫。

數據申請通過之後,申請的列表是這樣的:

點擊download就可以看到ftp鏈接了,這時候可用Filezilla下載,如果數據較大,建議用wget下載,直接批量地下到集羣:

wget   -b -c  --user=申請時候的用戶名  --password=密碼  --mirror ftp://鏈接

如果下載有困難除了在羣裏諮詢,您還可以申請郵寄:

下載完之後,我們知道要RunCellranger 至少需要兩個fq。當然,在看文章的時候,我們就已經知道這裏的數據是用哪個平臺做的了,需要注意的是,10X平臺試劑軟件版本更新較快,最好文章用哪個版本的數據我們就用哪個版本的,比如V2 和V3的試劑barcode長度不同了,有可能影響cell calling的結果。 所以我們需要看看自己下載的fq數據長得是什麼樣子的,特別是reads1。

下載完數據後,至少要:

  • 檢查文件完整性
  • 下載文件的ID和臨牀信息匹配
  • 檢查fq的分佈格式
  • fq文件重命名成cellranger需要的格式

接下來可以Run 上Cellranger了。

cellranger count --id=run_count_1kpbmcs \
--fastqs=/pbmc_1k_v3_fastqs \
--sample=pbmc_1k_v3 \
--transcriptome=/refdata-cellranger-GRCh38-3.0.0

然後就是降維聚類必知必會balabala了。

其實有文檔的啦:

  • 人類遺傳資源組學原始數據歸檔庫數據申請及下載說明
  • 組學原始數據歸檔庫(GSA)使用說明

中國核酸數據庫GSA數據提交指南

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章