多个探针对应同一个基因取最大表达量探针极简代码

原創

生信技能树

2018-12-18 14:55

这个需求实在是太常见了，很多时候我们下载的表达矩阵，都是基因的探针ID作为行名来标记，如下：

这个变量是 dat，一个表达矩阵，所以需要对探针进行注释，并且筛选。

首先看看注释的结果：

很明显可以看到，很多基因都是有多个探针的，而且每个探针的中位表达量不一样，这里我们可以选择最大的探针保留。

代码很简单：

  dat[1:4,1:4]  
  library(hgu133plus2.db)
  ids=toTable(hgu133plus2SYMBOL)
  head(ids)
  dat=dat[ids$probe_id,]
  dat[1:4,1:4] 
  ids$median=apply(dat,1,median)
  ids=ids[order(ids$symbol,ids$median,decreasing = T),]
  ids=ids[!duplicated(ids$symbol),]
  dat=dat[ids$probe_id,]
  rownames(dat)=ids$symbol
  dat[1:4,1:4]

过滤后的表达矩阵如下：

可以手动简单检查一些探针的转换情况来验证代码是否准确无误。

不过，如果你连表达矩阵都不知道如何生成，那么你需要补充的基础知识就比较多了。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

多个探针对应同一个基因取最大表达量探针极简代码

計算MiRNA–mRNA表達相關性

通常自己的目標基因要在公共數據庫看是否影響生存

TCGA數據庫的腫瘤病人也是有藥物反應信息的

天真的我準備把全部流程遷移到GATK4

多個探針對應同一個基因取最大表達量探針極簡代碼

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結