EXCEL是常用的查看錶格的工具,提供了很好的數據篩選、繪圖等功能,不少基因表達數據也會在EXCEL中打開查看、篩選和排序。還有 3 個超讚的 EXCEL 插件,讓你 5 分鐘從小白變大神。
但是EXCEL也會出現比較尷尬的事情,如基因名字的轉換。比如gene symbols SEPT2
(Septin 2)、MARCH1
[Membrane-Associated Ring Finger (C3HC4) 1, E3 Ubiquitin Protein Ligase], Oct4 (Pou5f1) 會被轉爲2-Sep
、1-Mar
和4-Oct
。
RIKEN 識別符因爲E
的存在會被識別爲科學計數法,如2310009E13
轉爲2.31E+13
。而且不可恢復。
這一事情在2014
年的BMC Bioinformatics
上就有報道。下圖所示12個月份開頭的基因名字都不可逆的轉換爲了日期。不少都是在胚胎幹細胞或癌症中很重要的基因。
這些數據不只是存在於Excel表中,還威脅到了公共數據庫,如NCBI LocusLink。
2016年Genome biology對2005-2015期間發表在18個雜誌的文章附表中基因名字做了分析,發現Nature中有附表的文章裏面,有30%以上出現了EXCEL引起的基因名字轉換錯誤,受影響的文章有74篇,影響的基因1375個。
出現基因名字轉換錯誤的附表錯誤的文章逐年增加,這一定程度上也是因爲大規模基因研究的迅速開展使得總上傳的附件數增多引起的。
並且作者還做了相關性分析,影響因子越高,受影響的基因列表比例越大。這可能是因爲高影響力的文章涉及了更多的數據集。
BMC bioinformatics雖然首先提出這個問題,後續受影響比例也比較大,有政策,無實施。
爲此,Eric A. Welsh特意開發了一款工具阻止此類轉換,提供了在線版本,Excel插件,Perl腳本和Galaxy訪問接口,爲了大家的使用也是煞費苦心。軟件發佈在Github上,https://github.com/pstew/escape_excel,文章發表在Plos One
。
Excel插件也很好安裝,下載解壓,escape_excel-master\release\2017-06-28\EscapeExcelAddin
目錄中有setupEscapeExcel.exe
, 雙擊安裝即可。
這個插件可以解決以下幾種問題,解決方式是在原字符串前加上=
,並用"
括起。(只在最開始加個'
看上去也可以解決問題,沒細看作者爲啥採用相對複雜的方式)。但是轉換後的數據在使用EXCEL的函數時需要注意匹配方式的變化。
常見受影響基因列表
- 2310009E13
- FEB2
- MAR1
- DEC1
- 2310009E13
- OCT4
- APR1
- SEP2
- SEP-1
- FEB1-FEB11
- MARCH1-MARCH11
- SEPT1-SEPT14
生信分析中經常會做的根據基因名字提取序列、表達量和註釋,都會受到這些名字轉換的影響,也會受到另外一個常見的換行符的影響^M
,所以做分析需要謹慎、謹慎、再謹慎。一定多檢查結果是否前後一致。
除了要求細心之外,還要求有一定的程序基礎,可以從多個角度查看、驗證和解決問題,保證一致性。
市面上Linux和Python的課程很多,但真正面向生物數據和生物信息分析的不多。近來頻頻收到不少朋友說看了我們的生信程序視頻課開竅了、入門了,對程序基礎的應用理解更深了,我們的課程在http://bioinfo.ke.qq.com/可以獲取,歡迎更多朋友觀看。