ChIP-Seq數據挖掘系列-6: 怎麼選擇HOMMER結果中的motif #先來看一個例子 #低複雜度的Motifs #簡單重複序列 #低質量和低重複的Motifs # 其它問題 #原文

HOMER 是一套用於Motif查找和二代數據分析的工具。hommer結果中一般包含已知motif富集情況,並且也會對用戶提供的序列進行重頭預測motif。

很多同學在拿到這個結果後都是一臉懵,儘管Homer motif Results是有排序的,排名第一的可能並不是用戶的期望,後面的結果也是可以選擇的,但是如何評價及選擇這些結果?

#先來看一個例子

  • 預測的這個motif的顯著性已經很高了。
  • 點擊More Information可以查看序列與mitof的比對信息,

這段序列比對到了已知motif(YY1),但是我們可以發現比對上的位置並不是YY1 motif (CAAGATGGC)的中心區域。因此YY1 motif 並不是完整的motif在用戶的數據中富集,因此這個結果是不太可信的。

注:記住, Hommer是一個重投預測motif 的工具,因此對於Hommer結果,用戶需要查看所選擇序列與motif的匹配情況,獲得充足的證據來支持自己的選擇,而不是盲目相信HOMER 的排序。

在許多情況下,HOMER 結果有很顯著的p值,但是motifs 卻不是好的。

因此,在選擇motif的時候,用戶需要注意以下的原則:

#低複雜度的Motifs

  • (Low Complexity Motifs)(less of a problem with the v3.0+)

低複雜度的motif序列的核苷酸傾向於都是同一種核苷酸,從而導致GC含量異常。

當目標序列和背景庫中序列之間存在系統性偏差時會導致這樣的結果。通它們的GC含量非常高。在這種情況下,您可以在motif分析命令中添加參數“-gc”,從而使運算按總GC含量而不是CpG島含量進行標準化。

其它情況,當分析多樣的基因組序列時,這是很難在背景中控制的。例如,將一個啓動子序列比對到某些物種隨機基因組背景序列,結果會對嘌呤或嘧啶的偏好。HOMER非常敏感,所以如果序列的組成有偏差,HOMER 很可能會發現。新版本中的Autonormalization可以儘量減小這個問題的發生。

#簡單重複序列

  • (Simple Repeat Motifs)(less of a problem with the v3.0+)

motifs 有時候會出現一些序列模式的重複

這種motifs 一般會有數個差不多序列的motifs。除非有充分的理由相信這些可能是真實的,否則背景序列可能有問題。如果你的目標序列在外顯子和其他類型的序列上高度富集,就會出現這種情況;並且如果"-gc"參數也不能改善結果,用戶就需要考慮自己正在分析序列的類型以及怎麼去匹配他們。

#低質量和低重複的Motifs

  • (Small Quantity Motifs / Repeats)

這種發生在motif看起來很靠譜,但是在序列中出現的百分比缺失很低的。例如,寡核苷酸和重複序列在用戶序列中出現從而導致極高的顯著性。統計上使顯著的,但是事實上卻並不是。一些調節基因的啓動子序列會發生這樣的事情。原則上,motif 在不到5%的靶序列中存在的話,這個motif不太可信。

# 其它問題

  • (Leftover Junk)
    一些高質量的motifs 可能會出現在結果的後面。如果一個motif在序列中高度富集, HOMER 會發現他們,然後繼續尋找新的motif。後續的motifs 可能會掩蓋先前找的motif。

排名第一的motif:


後續的motif:

這種情況不一定是壞的,但是也需要考慮;常常發生於ChIP-Seq數據中,免疫沉澱的蛋白高表達以及與大量的結合位點緊密結合。這些motifs 可能結合PU.1,但是親和性不高。處理這種情況的方法是重複motif 分析的過程,但是丟掉 the top motif(排名靠前的),添加參數-mask <motif file>就可以在motif分析過程中忽略這些top motif 。

#原文

How to Judge the Quality of the Motifs Found

ChIP-Seq 數據挖掘系列文章目錄:
ChIP-Seq數據挖掘系列-1:Motif 分析(1)-HOMER 安裝
ChIP-Seq數據挖掘系列-2: Motif 分析(2) - HOMER Motif 分析基本步驟
ChIP-Seq數據挖掘系列-3: Motif 分析(3) - 利用ChIP-Seq結果在基因組區域中尋找富集的Motifs
ChIP-Seq數據挖掘系列-4: liftOver - 基因組座標在不同基因組註釋版本間轉換
ChIP-Seq數據挖掘系列-5.1: ngs.plot 可視化ChIP-Seq 數據
ChIP-Seq數據挖掘系列-5.2: ngs.plot 畫圖工具ngs.plot.r 和 replot.r 參數詳解

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章