兩列樣本的差異基因篩選

原創

2020-02-22 12:24

兩列樣本數據的差異基因篩選方法：
FoldChange法+FDR控制
其中，FDR值的計算方法如下：

1）對每個基因進行p-value的計算
假設觀測到基因A對應的reads數爲x，已知在一個大文庫中，每個基因的表達量只佔所有基因表達量的一小部分，在這種情況下，p(x)的分佈服從泊松分佈。已知樣本一中唯一比對到基因組的總reads數爲N1，樣本二中唯一比對到基因組的總reads數爲N2，樣本一中唯一比對到基因A的總reads數爲x，樣本二中唯一比對到基因A的總reads數爲y，則基因A在兩樣本中表達量相等的概率可由以下公式計算：

2）用FDR錯誤控制法對p-value作多重假設檢驗校正
FDR錯誤控制法是Benjamini於1995年提出一種方法,通過控制FDR(False Discovery Rate)來決定P值的域值. 假設你挑選了R個差異表達的基因，其中有S個是真正有差異表達的，另外有V個其實是沒有差異表達的，是假陽性的。實踐中希望錯誤比例Q＝V/R平均而言不能超過某個預先設定的值（比如0.05），在統計學上，這也就等價於控制FDR不能超過5％.
對所有候選基因的p值進行從小到大排序，則若想控制fdr不能超過q，則只需找到最大的正整數i，使得 p(i)<= (i*q)/m.然後，挑選對應p(1),p(2),...,p(i)的基因做爲差異表達基因，這樣就能從統計學上保證fdr不超過q。因此，FDR的計算公式如下：

q-value(i)=p(i)*length(p)/rank(p)

首先將n個基因的原始P值由大到小排序，將最大P值賦值爲n，最小P值賦值爲1。校正P值=原始P值*（n/i）。其中n表示所有的基因個數，i表示從小到大第i個P值。例如下表中，共6個基因，因此n=6，從大到小排序後，第1大的原始P值0.0687，其校正P值爲0.06873*（6/6）=0.0687；第2大的原始P值0.0235，其校正P值爲0.0235*（6/5）=0.0282；……；第6大的原始P值0.0003，其校正P值爲0.0003*（6/1）=0.002。
　　但是要注意第3大的原始P值 0.0192，如果按公式計算其校正P值爲0.0195*（6/4）=0.0288，但是FDR在計算校正P值時，需要將當前計算值與上一個計算值比較，取二者中最小值。比如，第3大原始P值所計算的校正P值爲0.0288，與上一個校正P值0.0282相比，0.0282更小，因此這裏的值不是0.0288，而是0.0282。

參考文獻：
1.Audic, S. and J. M. Claverie (1997). The significance of digital gene expression profiles. Genome Res 7(10): 986-95.
2.Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. The Annals of Statistics. 29: 1165-1188.

zhu_si_tao

發佈了21 篇原創文章 · 獲贊 36 · 訪問量 18萬+

私信關注

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

兩列樣本的差異基因篩選

杭州的 IT 崩盤了麼？

開源高性能結構化日誌模塊NanoLog

Azure Virtual Network (22) 多訂閱使用Azure DNS解析問題 Windows Azure Platform 系列文章目錄

Python 潮流週刊#55：分享 9 個高質量的技術類信息源！

【簡寫Mybatis-02】註冊機的實現以及SqlSession處理

手繪二維碼

.NET藉助虛擬網卡實現一個簡單異地組網工具

shell中awk 使用

R studio常用命令行操作

選擇區域的檢驗tajimD

GATK流程

SGE作業基本用法

Mac下配置sublime實現LaTeX

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結