GWAS研究和多基因評分

2.GWAS研究和多基因評分

GWAS的一般思想是掃描樣本中所有測量到的單核苷酸多態性(SNPs)與結果的關聯,使用可能的環境混雜進行嚴格的控制和多重測試。除了測量到的SNPs,GWAS還使用典型的填充SNPs。對未測量的SNPs的歸類使研究人員能夠彙集來自各種基因分型平臺的證據,這些平臺具有測量的非完全重疊的SNPs集合。此外,與直接分型的SNPs相比,填充使研究人員能夠提高統計能力並獲得對相關遺傳變異的更高分辨率的洞察。填充“借用”了所有DNA變異之間的相關性模式的信息,這些變異來自於完全以高精度測序的個體DNA的大型參考數據集。其精度隨着參考集的樣本大小而增加,並且最新的參考集允許以相對較高的精度對即使是罕見的統計變體進行估計。在實踐中,大多數現代GWAS包括比直接分型更多的SNPs。

在過去十年中,數據可用性和計算能力的快速增長導致公佈的GWAS和遺傳關聯的數量同樣迅速增加。數據可用性的提高也使GWAS研究能夠獲得更大的樣本量和統計功能強大的分析,從而能夠檢測到越來越多的相關遺傳變異。更大的樣本也對單個遺傳變異的真實效應大小的有更精確的估計。對於絕大多數遺傳複雜的性狀(包括迄今爲止研究的所有行爲和社會經濟結果),任何特定的SNP在羣體中的變異都不到0.03%。

2.1 公衆可獲取的GWAS結果

GWAS結果一般發表在同行評議的科學雜誌,一些GWAS 彙總統計數據需要對其他研究者方便存儲和獲得。事實上,當報告研究結果的文章發表在同行評議的期刊上時,與更廣泛的研究社區共享GWAS摘要統計數據已經成爲最佳實踐。一些科學家甚至更早地分享了他們的彙總統計數據。然而,仍有科學家和研究小組沒有與更廣泛的學術團體分享他們的成果。

GWAS 彙總統計數據對跟蹤研究是有用的,應該包括一個唯一的遺傳變異標識,P值,估計係數和標準誤(或統計檢測),每個SNP的樣本量,還有等位基因信息(參考和最小等位基因頻率MAF)。爲了保護研究對象隱私,許多GWAS彙總統計數據不報告樣本MAF。相反,他們從參考人羣報告MAF,並將估計係數的報告位數限制在必要的最小值,以保護對研究做出貢獻的個人的身份。

科學家通常在網站(例如,參見SSGACPGCGOGER的聯合體網站)或存儲庫(如dbGaP)上共享這樣的GWAS摘要統計數據。美國國家人類基因組研究所創建了所有已發表的GWAS關聯結果的目錄(由歐洲生物信息學研究所維護):https://www.ebi.ac.uk/gwas/)。這些公開共享的資源對研究社區具有非常高的價值,並導致了交互式地圖集的開發,這些地圖集比較了數以千計的性狀(例如http://atlas.ctglab.nl/和https://biobankengine.stanford.edu/的遺傳結構)。

2.2假說和挑戰

GWAS使用標準線性或Logistic迴歸來估計SNP和某些感興趣的特徵之間的關聯。因此,這些迴歸方法的所有標準假設也適用於GWAS。從這個一般角度考慮GWAS中的假設是有用的(見附件1,統計迴歸部分)

SNPs並不是唯一將人與人區分開來的遺傳變異。除了SNP外,還存在所謂的結構變異(例如插入、缺失、反轉、拷貝數變異、易位),並可能影響感興趣的結果。然而,在實踐中,由於目前流行的基因分型技術,GWAS的絕大多數集中在SNP或僅包括那些通過基因分型芯片直接測量的結構變異。結構變體可以與SNP相關,因此,即使GWAS完全聚焦於SNP,它仍然可以檢測到但相關的結構變體中找到一些信號。GWAS中未觀察到的、非完全相關的遺傳變異導致了所謂的“遺傳度缺失”問題,我們將在稍後返回到這個問題。

對人口結構控制不足可能導致完全誤導GWAS結果。例如,不能適當控制遺傳祖先的教育-GWAS會發現與編碼乳糖酶的乳糖(LCT)基因有關。乳糖不耐受與認知能力或個性無關,但在歐洲東南部地區比西北部地區更常見。由於基因的流行率因地理位置而異,因此地理區域之間的環境驅動差異可能導致與LCT基因的虛假關聯。不幸的是,不能保證這種方法或者更復雜的方法能夠成功地消除所有形式的環境混淆。

解決這一挑戰的一個乾淨而有力的方法是對異卵、不同卵(DZ)雙胞胎或兄弟姐妹的樣本進行GWAS。這將利用這樣一個事實,即DZ雙胞胎或兄弟姐妹之間的遺傳變異是完全隨機的,因此不受家庭特定環境影響的影響。不幸的是,DZ雙胞胎和兄弟姐妹目前可用的樣本量仍然太小,無法對大多數遺傳複雜性狀進行有力的GWAS分析。這種情況在未來可能會發生變化,這要歸功於不斷增長的數據可用性和研究人員最近的努力,以形成雙胞胎基因型數據集的聯盟。然而,與此同時,正在使用上述人口樣本中的控制,它們可以與各種後續分析相結合,從而能夠量化人口結構在GWAS彙總統計中的存在程度。

最後,GWAS掃描整個基因組與結果的關聯的方法意味着測試非常大量的獨立假設。這對統計推斷來說是一個挑戰。爲了說明這個問題,考慮一個研究人員的假設實驗,進行了一百萬次獨立統計檢驗,其中x和y之間沒有關聯的Null假設始終爲真。如果使用0.05的p值閾值來評估測試,則意味着即使Null假設爲真,研究者也期望在5%的情況下拒絕Null假設。因此,1000000個獨立測試中的≈5%將被錯誤地拒絕,這意味着研究人員最終將得到50000個預期的假陽性結果。當然,這是不可接受的,並且需要在檢驗程序中進行校正,以調整所測試的大量獨立假設。從經驗上講,GWAS 確實測試了大約1000000個獨立假設。獨立測試的實際數量因研究而異,這取決於包括多少稀有遺傳變異和正在研究的人羣。爲了糾正這種多重檢驗負擔,GWAS強加了非常嚴格的p值閾值5×10-8,只有p值低於這個閾值的SNP才被認爲是“全基因組顯著”。許多已發表的GWAS有效地測試了不到50萬個獨立假設,因爲它們僅限於歐洲人的樣本和次要等位基因頻率>2%的常見SNP-但他們仍然使用全基因組顯著性水平p<5×10-8作爲統計推斷的基準。然而,科學家們仍在討論這一問題。

必須使用這些非常嚴格的p值閾值進行統計推斷的一個副作用是,它降低了檢驗的統計能力,即,如果Null假設實際上爲假,則研究人員拒絕Null假設的能力。然而,統計能力隨着樣本量(N)的增加而增加,因此,成功的GWAS對遺傳複雜性狀的努力通常需要極大的樣本量,通常在N>100000的範圍內

小結

  • 1.GWAS要求對多重測試進行嚴格控制,這反映在全基因組顯著性的常用閾值爲5×10-8
  • 2.GWAS對可能與遺傳數據相關的環境混雜要求嚴格控制
  • 3.GWAS沒有告知哪些相關的遺傳變異是因果關係:這些研究突出了相關性,但沒有得出因果關係
  • 4.關於遺傳複雜性狀的GWAS需要非常大的樣本量,通常超過100,000名參與者

2.2質控

在第一代候選基因研究的令人失望的不可重複之後,基因科學界已經接受了非常嚴格的質量標準,用於直接根據上述討論報告新的遺傳關聯。

最重要的是,基因界大多已經意識到需要統計上功能強大的研究設計(N約爲數萬的行爲結果),其中包括對多重假設檢驗的足夠校正,例如普遍接受的全基因組顯著性閾值(p<5×10-8),對於包括許多罕見的遺傳變異或非歐洲樣本的數據集,可能必須進一步向下調整(Auton等,2015;McCarthy等,2008)。重要的是,在報道新的遺傳關聯的文章中,報告來自獨立樣本的新遺傳關聯的重複結果已經成爲GWAS文獻中的常見做法。事實上,這通常是GWAS在領先的領域期刊上發表的要求。該領域對改進GWAS重複記錄的這種承諾,導致了所報告的經驗證據質量的戲劇性提高,使得大規模GWAS結果可能成爲迄今爲止最透明和最好的重複記錄的科學領域之一。

此外,GWAS在頂級期刊上的同行評議過程通常需要大量證據來說服推薦人和讀者所報告的遺傳關聯不是由於環境混淆,例如人口分層引起。在這種情況下的標準預防措施是將GWAS限制爲具有相似祖先的個體樣本,並排除遺傳異常值和不屬於樣本中最大祖先羣體的個體。在實踐中,這往往意味着GWAS僅限於歐洲的白人,這導致了以歐洲人爲中心的GWAS文獻主導,這對GWAS研究結果向非歐洲人口的推廣提出了挑戰。一種名爲Linkage不平衡得分迴歸(LD得分迴歸)的統計方法的開發是向前邁出的重要一步,現在允許科學家區分GWAS結果在多大程度上代表真正的關聯信號或由於不受控制的羣體結構或非獨立樣本造成的混淆。LD分數迴歸的截距是對導致測試統計數據膨脹的混雜程度的測量,並且此截距隨後可用於相應地校正所有SNP的測試統計數據和p值。

另一個重要的質量標準是遺傳數據和衍生的關聯結果在多大程度上經過質量和貌似可信的篩選。遺傳數據可能是不精確的(例如,由於基因分型錯誤,鏈翻轉,或不準確的估算),特別是罕見的遺傳變異經常測量錯誤。此外,與同一樣本中具有更多常見變異的檢測相比,具有罕見遺傳變異的統計測試的威力較小,這意味着增加了假陽性關聯結果的風險,並誇大了稀有變異的效應大小估計。爲了應對這一挑戰,許多GWAS的分析努力對罕見變異(次要等位基因頻率)進行了過濾。

此外,在分析數據和將結果轉移到其他研究中心的過程中可能會發生許多錯誤(例如,因變量的錯誤編碼,錯誤的列標題,複製-粘貼錯誤),所有這些都可能導致錯誤的關聯結果。複雜性狀遺傳學領域的領先中心已經開發了自動化過程,仔細檢查所有數據和這些錯誤的彙總統計數據。一個特定的GWAS利用這些質量控制工具的程度通常是研究整體質量的一個重要標誌。

此外,良好的GWAS通過公開提供分析協議、計算機代碼和GWAS彙總統計數據來參與開放科學運動,以提高透明度,實現獨立的重複努力,並通過允許其他研究人員進行後續研究,使用GWAS彙總統計數據作爲輸入來促進科學進步。最後但同樣重要的是,高質量的GWAS出版物遵循最近的統計分析報告標準。特別是,他們報告了所進行的分析的所有細節,除了p值外,還包括關於樣本量、參考等位基因、次要等位基因頻率、效應大小估計和每個SNP的置信區間的信息。

出版GWAS的領先科學期刊正在嚴格執行這些質量標準。然而,並不是所有的研究小組和期刊都堅持相同水平的嚴謹性,偏離這些最佳實踐中的任何一個都可能在各自的GWAS文章中指出潛在的問題。

小結:

  • 樣本量(行爲結果的N>100,000)。
  • 精確調整多個假設檢驗(例如,使用全基因組)。顯著性閾值爲5×10-8或更低)。
  • 獨立樣本中的複製。
  • 同質祖先的發現樣本,沒有遺傳異常值,並在關聯分析中控制微妙的羣體結構。
  • GWAS結果測試是否存在人口分層(例如LD得分迴歸或家庭內的遺傳預測)。
  • 基因數據和關聯統計的嚴格質量控制參數。
  • 應報告效應大小和置信區間(而不僅僅是p值)。
  • 摘要統計數據和分析協議公開可用,以支持獨立的複製工作和後續研究

2.4 使用GWAS做預測,PGS/PRS

有沒有可能,使用來自GWAS的見解,做出一些預測?大規模的GWAS對行爲特徵的研究清楚地表明,單獨考慮的每個共同的遺傳變異只捕捉到羣體中性狀的總體變異量很小的量。然而,將許多SNP的影響聚合在所謂的多基因得分(PGS)中會產生一個遺傳指數,該指數可以捕獲行爲特徵變異的很大部分,因此在社會科學中變得廣泛有用。在多基因評分中,研究人員從特定特徵的GWAS獲得結果,並將其應用於新樣本,對來自GWAS的效應大小對每個人的遺傳變異進行加權,並對變異進行求和。因此,由此產生的PGS是一個線性指數,概括了個人對錶型的總體遺傳度。從理論上可以證明,PGS的準確性主要取決於性狀的遺傳力(+),GWAS樣本量(+),性狀的多基因(-),以及性狀的遺傳架構是否在不同環境中變化(-)(Dudbridge,2013;de Vlaming等,2017)。一個性狀的PGS可以預測多少的上限由該性狀的基於SNP的狹義遺傳力給出。經驗結果很好地映射了理論預期,顯示了隨着GWAS樣本量的增加,PGS準確度明顯上升的趨勢。

在實踐中如何構建PGS有許多不同的方式,這些方法在如何處理SNP之間的相關性模式(在GWAS中被忽略)與分數中包括多少SNP方面存在差異通常,包括大量SNP並在某種程度上說明SNP之間的相關性模式的方法往往表現得更好,但所有由大規模GWAS構建的方法往往表現更好。

然而,PGS對結果的預測程度還取決於感興趣性狀的遺傳結構在GWAS發現和預測樣本中是否具有可比性

此外,最近的幾項研究已經清楚地表明,PGS目前不能用於在與GWAS發現樣本不同的血統樣本中做出準確的預測,這部分是由於技術原因(例如,不同的祖先羣體具有不同的次要等位基因頻率,這意味着來自一個羣體的估計的GWAS效應大小對於另一個羣體來說不是正確的效應大小),但部分原因也是因爲對於具有不同祖先的個體,影響結果的環境條件往往是非常不同的。因此,如果羣體的環境條件不同和/或羣體具有不同的祖先背景,則羣體之間的PGS值的差異不能用於得出關於這些羣體之間觀察到的性狀差異的原因的結論。

重要的是,即使教育程度等社會科學成果的PGS開始捕獲大量樣本變異,即使是目前最好的PGS對於個體水平的預測也是無用的

小結:

  • PGS比任何特定的遺傳變異更能預測遺傳複雜的性狀。
  • 隨着GWAS樣本量的增加,PGS變得更加精確。
  • PGS可以捕獲性狀方差的多少的上限由該性狀的SNP遺傳力給出。
  • PGS正在成爲社會科學家越來越有用的工具。
  • PGS對於個體水平預測的用途非常有限。
  • PGS在具有不同血統或環境背景的樣本中沒有或僅有限的預測精度。
  • PGS不能用於得出關於羣體之間或一段時間內表型差異的原因的結論
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章