【數說·大數據圈】機器學習在生物大數據應用的一個例子 文/飛揚

       下面不是我寫的我只是做了點筆記。        

  作者:飛揚,生物圈女博士一枚,數說工作室特約撰稿人,關注領域:生物、健康、圖像識別、大數據         

       前不久,華大基因宣佈前CEO王俊“辭職但未離職”,將轉戰“基因測序+人工智能”領域。

  撇開陰謀論和各種傳言不談,讓我們把焦點放在科學上——基因測序和人工智能可以擦出怎樣的火花?也是在幾天前,有一家生物大數據的創業公司出現在媒體和公衆的視線中——Deep Genomics。這個公司是幹嘛的呢?簡單來說就是:

  利用機器學習的方法,預測基因組上的變化會對人體的特徵/疾病/表型產生怎樣的影響。

  這就是本文要說的,機器學習在生物大數據上應用的一個例子。那麼它是如何實現的呢?可以概括爲兩步:

  (1)確定與某個特徵/疾病/表型相關的基因易感位點。

  我們每個人所帶的基因是差不多的,之所以有的人捲髮,有的人直髮,有這麼豐富多彩的變化,就是因爲基因發生了改變,所以嚴格來說,我們要找的是基因的“多態性”。

  (2)以這些基因易感位點數據作爲輸入變量,相關的特徵/疾病/表型爲響應變量,訓練機器學習模型。

  簡單兩步,但卻蘊含着大數據、機器學習、統計學的精粹利用,現在逐一來分析。

  1. 確定與某個特徵/疾病/表型相關的基因易感位點。

  這一步如何做?目前較流行的當屬GWAS,所謂GWAS,是指全基因組關聯分析(Genome-wide association study),是一種對全基因組範圍內的常見遺傳變異基因總體關聯分析的方法。

  目前,科學家已經對糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多種複雜疾病進行了GWAS分析,並找到了疾病相關的多個易感位點。看一下下面的圖:

簡單來說,塞一大堆的基因易感位點數據(幾十萬、幾百萬也可能上千萬個易感位點),和要分析的這個特徵/疾病/表型數據,然後建立模型分析找到存在顯著關係的那個易感位點。

  這有點類似於,我們有身高、學歷、職業三個潛在影響變量,要從這三個變量中找出:哪個變量與收入存在顯著關係、進而可能決定了收入。這裏身高、學歷、職業三個變量就相當於易感位點(只不過我們的潛在易感位點有幾十萬甚至幾百萬,所以纔是生物大數據嘛),收入就相當於特徵/疾病/表型。

  模型可以選擇卡方檢驗,或者logistic模型等等(模型的選擇取決於你的表型)。值得注意的是,這裏的顯著性水平不再是0.05了,因爲幾百萬個位點的分析,5%的顯著性水平太低,此時要做P值的校正(在微信公衆號shushuojun中回覆“校正”)。

  最終,我們選出來了對這個特徵/疾病/表型有決定作用的一個或多個基因易感位點。

  舉一個例子,我們知道高血壓是有遺傳性的,既然有遺傳學,就說明一定有基因的作用在裏面,2009年,在nature genetics的一篇論文中,作者就是用GWAS找到了和高血壓相關的幾個SNP。這篇論文的名字也很直白:

  “Genome-wideassociation study identifies eight loci associated with blood pressure”。

  2. 用機器學習模擬特徵/疾病/表型的變化

  通過第一步的GWAS分析,我們知道哪些基因組的變化會一起一些特徵/疾病/表型的改變。

  在此基礎上,我們就可以構建機器學習的算法,以基因組數據爲輸入變量、以特徵/疾病/表型的數據爲輸出變量,利用大規模的訓練數據去訓練模型,以預測基因組的突變會如何改變細胞,進而改變動物和人體的表現。

  前面說到的生物創業公司DeepGenomics,他們的第一個產品是SPIDEX,就是預測基因組突變對RNA剪切的影響。

  基因組突變→ RNA剪切

  再舉一個例子,有的人天生能喝酒,有的人一沾酒就臉紅。這也是有基因在起作用的,酒精在人體先分解成有毒的乙醛,再通過乙醛脫氫酶分解成無害的乙酸。因此,乙醛脫氫酶的活性就決定了解酒能力。爲什麼每個人的乙醛脫氫酶活性能力不一樣?這是因爲人體ALDH2基因的rs641這個點發生了改變。同樣,我們或許可以利用機器學習的算法,訓練大規模數據去預測乙醛脫氫酶的活性能力的表現。

  綜上所述,我們用GWAS找到了跟某個特徵/疾病/表型相關的基因,然後在大規模樣本數據中訓練機器學習算法,用基因的突變去預測細胞層面的改變。

 

 

【1】Deep Genomics:http://www.deepgenomics.com/   

2GWAS如果在患者中某基因型的變異很頻繁,那麼就說該變異與該疾病相關。相關的遺傳變異所在的人類基因組區域被視爲標示點,基因組的該區域可能是致病原因的所在。有兩種方法用來尋找疾病相關的突變:假說驅動和非假設驅動的方法。假設驅動的方法爲一開始假設一個特殊的基因可能與某種疾病有關,並試圖找出關聯。非假設驅動的研究用蠻力的方法來掃描整個基因組,看哪些基因與該病有關聯。GWAS一般採用非假說驅動。

【3】SNP:有的人吸菸喝酒卻長壽,也有人自幼就病痛纏身;同一種治療腫瘤的藥物對一些人非常有效,對另一些人則完全無效。這是爲什麼?答案是他們基因組中存在的差異。這種差異很多表現爲單個鹼基上的變異,也就是單核苷酸的多態性(SNP)。

 

【4】SNV與SNP:

SNV僅在一些個體發現

SNP在人羣中有一定概率

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章