GEO2R/GEOquery的結果可能是錯的!!!

前言

NGS系列文章包括NGS基礎、轉錄組分析 (Nature重磅綜述|關於RNA-seq你想知道的全在這)、ChIP-seq分析 (ChIP-seq基本分析流程)、單細胞測序分析 (重磅綜述:三萬字長文讀懂單細胞RNA測序分析的最佳實踐教程 (原理、代碼和評述))、DNA甲基化分析、重測序分析、GEO數據挖掘(典型醫學設計實驗GEO數據分析 (step-by-step) - Limma差異分析、火山圖、功能富集)等內容。

在準備GEO/TCGA培訓時,因爲部分數據來自NCBI GEO數據庫,就係統梳理了GEO數據庫的結構和存儲方式,順便也看了GEO2R的使用。然後就發現了一個問題,可能直接使用GEO2R的分析結果是錯誤的。

原因見下圖 (官網介紹截圖)

 

 

而GEO2R的R代碼使用的是GEOquery獲取GSEMatrix,所以如果我們自己寫代碼這樣獲取非原始數據時,也有可能得到的數據是不可比的。

 

 

所以,還是建議使用工具或命令之前,好好讀一下幫助文檔,做到心中有數,知其所以然。如果能基於原始數據進行分析,可以做更多的質控和更深入的比較。如果不能,分析之前看下數據的分佈是否均一 (median-centered)。

所以生信寶典的原理類文章,值得好好閱讀。

從課件中截取GEO簡介部分分享如下 :

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章