讀文獻:全基因組選擇模型進展及展望

令人擊節的一段話:

隨着全基因組選擇統計模型的不斷改進優化,模型的穩定性及準確性不斷提高,但是依然面臨兩個重要的挑戰,即計算準確性和計算效率;直接法(GBLUP爲代表)計算效率較高,但是計算準確性略差於間接法(BayesB爲代表),雖然學者對直接法進行了改進,但是由於改進的策略中人爲設定參數較多,因此模型的預測準確性受主觀因素影響較大;間接法計算準確性較高,但是由於參數求解過程中計算量龐大,且無法實現並行運算,而育種講求時效性,所以難以高效指導育種實踐;因此,如何優化模型,儘可能減少人爲設定參數,與機器學習方法有效結合,並融入高效可並行運算,既能保證較高準確性的同時,大大提升計算效率,是未來全基因組選擇模型優化的方向。

1. 參考文獻

尹立林, 馬雲龍, 項韜, et al. 全基因組選擇模型研究進展及展望[J]. 畜牧獸醫學報, 2019, 50(02):9-18.

2. 全基因組選擇方法介紹

全基因組選擇是一種利用覆蓋全基因組的高密度標記進行選擇育種的新方法,可通過早期選擇縮短世代間隔,提高育種值估計準確性等加快遺傳進展,尤其對低遺傳力、難測定的複雜性狀具有較好的預測效果,真正實現了基因組技術指導育種實踐。

關鍵詞:

  • 高密度標記
  • 早期選擇
  • 縮短世代間隔
  • 加快遺傳進展
  • 低遺傳力,複雜性狀預測較好

3. 分子標記輔助選擇侷限性

  • 目前經過驗證的基因少,解釋變異少
  • 大部分經濟性狀遺傳力低,數量性狀,MAS效果有限

4. 基因組選擇直接法和間接法

統計模型是全基因組選擇的核心,極大地影響了基因組預測的準確度和效率。根據統計模型的不同,全基因組選擇的模型大體可分爲兩大類:

  • 第一類是直接法,此方法把個體作爲隨機效應,參考羣體和預測羣體遺傳信息構建的親緣關係矩陣作爲方差協方差矩陣,通過迭代法估計方差組分,進而求解混合模型獲取待預測個體的估計育種值;
  • 第二類是間接法,此方法則首先在參考羣中估計標記效應,然後結合預測羣的基因型信息將標記效應累加,獲得預測羣的個體估計育種值

直接法公式:

  • 混合線性模型公式:

  • G矩陣計算公式:

  • REML計算BLUP值

間接法公式:

  • 矩陣模型:

  • 貝葉斯系列:

5. 不同改良GS方法效果比較

  • 利用系譜信息的BLUP模型準確性明顯低於利用基因組信息的模型;
  • 間接法模型準確性優於GBLUP模型,計算時間更長,但與基於GBLUP改進的模型準確性基本等同;
  • 雖然間接法模型不斷改進,但準確性並未明顯提升;
  • 將大效應標記作爲固定效應的Fixed GBLUP可提高GBLUP準確性,但是,由於加入的大效應標記較少,只能解釋部分遺傳變異,提升效果沒有利用權重基因組關係矩陣的Weighted GBLUP高;
  • 對於分型個體而言SSBLUP相對於GBLUP並沒有明顯優勢,而對於未分型的個體能夠大大提高預測準確性。

6. 直接法 VS 間接法

性狀遺傳構建複雜多樣,目前還沒有一種模型能廣泛適用於所有性狀[56-57]。隨着全基因組選擇統計模型的不斷改進優化,模型的穩定性及準確性不斷提高,但是依然面臨兩個重要的挑戰,即計算準確性和計算效率;直接法(GBLUP爲代表)計算效率較高,但是計算準確性略差於間接法(BayesB爲代表),雖然學者對直接法進行了改進,但是由於改進的策略中人爲設定參數較多,因此模型的預測準確性受主觀因素影響較大;間接法計算準確性較高,但是由於參數求解過程中計算量龐大,且無法實現並行運算,而育種講求時效性,所以難以高效指導育種實踐;因此,如何優化模型,儘可能減少人爲設定參數,與機器學習方法有效結合,並融入高效可並行運算,既能保證較高準確性的同時,大大提升計算效率,是未來全基因組選擇模型優化的方向。

7. GS面臨的挑戰

  • 1)全基因組選擇主要考慮加性效應,對於顯性效應及互作效應等未納入到育種值估計模型中[58];
  • 2)全基因組選擇目前主要在品種內進行,品種間由於遺傳背景不同,跨品種預測準確性難以保證;
  • 3)同品種間親緣關係太遠的個體育種值預測效果也不理想,如不同育種公司間由於育種策略不同,選擇方向差異,導致同品種間遺傳背景也不同,難以實現跨公司預測;
  • 4)全基因組選擇只用到基因組信息,大量的多組學研究結果利用不夠充分,如何將多組學信息進行整合,通過整合組學提高選擇準確度也是目前待解決的問題;
  • 5)隨着全基因組選擇的逐漸應用,分型個體數目越來越大,相比傳統BLUP的稀疏矩陣,利用基因組信息計算的稠密矩陣給混合模型參數估計及模型求解帶來了巨大的挑戰,通過數學或着計算機手段簡化計算複雜度,才能更高效利用龐大的基因組數據甚至其他各組學數據;
  • 6)個體分型主要是芯片技術,如豬illumina 60K SNP芯片等,芯片分型具有良好的穩定性,但由於密度不足,使得全基因組選擇對LD的依賴性強,通過測序手段可以得到較高密度SNP標記從而減少對LD的依賴,同時測序方法可以捕獲不同品種間所有遺傳變異,可能實現跨品種預測,並且測序能夠得到更豐富的遺傳信息,如CNV等,對於親緣關係較近的羣體,可以通過填充技術將芯片個體標記密度填充到測序水平。因此,測序技術的應用將成爲全基因組選擇新時代的轉折點。

8. GS未來的發展

儘管測序技術對於全基因組選擇具有衆多好處,但也存在一些問題,測序技術已經經歷了3代技術革新,檢測質量及完整性越來越高,高質量的測序結果需要更高的測序深度,意味着測序成本更昂貴,並且測序數據龐大,主流的分析軟件處理速度較慢,使用複雜繁瑣,對於計算資源的配置需求較高,因此如何快速、有效地儲存、處理及分析數據是測序技術應用於全基因組育種的重要挑戰,另外,測序只能檢測參考基因組中已知的序列和基因信息,對於未知的基因序列和基因還不能進一步深入研究。當然,隨着測序方法和芯片技術的不斷成熟,未來個體分型費用將不斷降低,分型準確性不斷提高,全基因組選擇將逐步替代傳統育種方法,爲動物育種改良帶來一次新的技術革命。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章