兩列樣本的差異基因篩選

兩列樣本數據的差異基因篩選方法:
FoldChange法+FDR控制
其中,FDR值的計算方法如下:

1)對每個基因進行p-value的計算
假設觀測到基因A對應的reads數爲x,已知在一個大文庫中,每個基因的表達量只佔所有基因表達量的一小部分,在這種情況下,p(x)的分佈服從泊松分佈。已知樣本一中唯一比對到基因組的總reads數爲N1,樣本二中唯一比對到基因組的總reads數爲N2,樣本一中唯一比對到基因A的總reads數爲x,樣本二中唯一比對到基因A的總reads數爲y,則基因A在兩樣本中表達量相等的概率可由以下公式計算:


2)用FDR錯誤控制法對p-value作多重假設檢驗校正
FDR錯誤控制法是Benjamini於1995年提出一種方法,通過控制FDR(False Discovery Rate)來決定P值的域值. 假設你挑選了R個差異表達的基因,其中有S個是真正有差異表達的,另外有V個其實是沒有差異表達的,是假陽性的。實踐中希望錯誤比例Q=V/R平均而言不能超過某個預先設定的值(比如0.05),在統計學上,這也就等價於控制FDR不能超過5%.
對所有候選基因的p值進行從小到大排序,則若想控制fdr不能超過q,則只需找到最大的正整數i,使得 p(i)<= (i*q)/m.然後,挑選對應p(1),p(2),...,p(i)的基因做爲差異表達基因,這樣就能從統計學上保證fdr不超過q。 因此,FDR的計算公式如下:

q-value(i)=p(i)*length(p)/rank(p)


首先將n個基因的原始P值由大到小排序,將最大P值賦值爲n,最小P值賦值爲1。校正P值=原始P值*(n/i)。其中n表示所有的基因個數,i表示從小到大第i個P值。例如下表中,共6個基因,因此n=6,從大到小排序後,第1大的原始P值0.0687,其校正P值爲0.06873*(6/6)=0.0687;第2大的原始P值0.0235,其校正P值爲0.0235*(6/5)=0.0282;……;第6大的原始P值0.0003,其校正P值爲0.0003*(6/1)=0.002。
  但是要注意第3大的原始P值 0.0192,如果按公式計算其校正P值爲0.0195*(6/4)=0.0288,但是FDR在計算校正P值時,需要將當前計算值與上一個計算值比較,取二者中最小值。比如,第3大原始P值所計算的校正P值爲0.0288,與上一個校正P值0.0282相比,0.0282更小,因此這裏的值不是0.0288,而是0.0282。




參考文獻:
1.Audic, S. and J. M. Claverie (1997). The significance of digital gene expression profiles. Genome Res 7(10): 986-95.
2.Benjamini, Y. and D. Yekutieli (2001). The control of the false discovery rate in multiple testing under dependency. The Annals of Statistics. 29: 1165-1188.

發佈了21 篇原創文章 · 獲贊 36 · 訪問量 18萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章