【數說·大數據圈】機器學習在生物大數據應用的一個例子文/飛揚

下面不是我寫的我只是做了點筆記。

　　作者：飛揚，生物圈女博士一枚，數說工作室特約撰稿人，關注領域：生物、健康、圖像識別、大數據

前不久，華大基因宣佈前CEO王俊“辭職但未離職”，將轉戰“基因測序+人工智能”領域。

　　撇開陰謀論和各種傳言不談，讓我們把焦點放在科學上——基因測序和人工智能可以擦出怎樣的火花?也是在幾天前，有一家生物大數據的創業公司出現在媒體和公衆的視線中——Deep Genomics。這個公司是幹嘛的呢?簡單來說就是：

　　利用機器學習的方法，預測基因組上的變化會對人體的特徵/疾病/表型產生怎樣的影響。

　　這就是本文要說的，機器學習在生物大數據上應用的一個例子。那麼它是如何實現的呢?可以概括爲兩步：

　　(1)確定與某個特徵/疾病/表型相關的基因易感位點。

　　我們每個人所帶的基因是差不多的，之所以有的人捲髮，有的人直髮，有這麼豐富多彩的變化，就是因爲基因發生了改變，所以嚴格來說，我們要找的是基因的“多態性”。

　　(2)以這些基因易感位點數據作爲輸入變量，相關的特徵/疾病/表型爲響應變量，訓練機器學習模型。

　　簡單兩步，但卻蘊含着大數據、機器學習、統計學的精粹利用，現在逐一來分析。

　　1. 確定與某個特徵/疾病/表型相關的基因易感位點。

　　這一步如何做?目前較流行的當屬GWAS，所謂GWAS，是指全基因組關聯分析(Genome-wide association study)，是一種對全基因組範圍內的常見遺傳變異基因總體關聯分析的方法。

　　目前，科學家已經對糖尿病、冠心病、肺癌、前列腺癌、肥胖、精神病等多種複雜疾病進行了GWAS分析，並找到了疾病相關的多個易感位點。看一下下面的圖：

簡單來說，塞一大堆的基因易感位點數據(幾十萬、幾百萬也可能上千萬個易感位點)，和要分析的這個特徵/疾病/表型數據，然後建立模型分析找到存在顯著關係的那個易感位點。

　　這有點類似於，我們有身高、學歷、職業三個潛在影響變量，要從這三個變量中找出：哪個變量與收入存在顯著關係、進而可能決定了收入。這裏身高、學歷、職業三個變量就相當於易感位點(只不過我們的潛在易感位點有幾十萬甚至幾百萬，所以纔是生物大數據嘛)，收入就相當於特徵/疾病/表型。

　　模型可以選擇卡方檢驗，或者logistic模型等等(模型的選擇取決於你的表型)。值得注意的是，這裏的顯著性水平不再是0.05了，因爲幾百萬個位點的分析，5%的顯著性水平太低，此時要做P值的校正(在微信公衆號shushuojun中回覆“校正”)。

　　最終，我們選出來了對這個特徵/疾病/表型有決定作用的一個或多個基因易感位點。

　　舉一個例子，我們知道高血壓是有遺傳性的，既然有遺傳學，就說明一定有基因的作用在裏面，2009年，在nature genetics的一篇論文中，作者就是用GWAS找到了和高血壓相關的幾個SNP。這篇論文的名字也很直白：

　　“Genome-wideassociation study identifies eight loci associated with blood pressure”。

　　2. 用機器學習模擬特徵/疾病/表型的變化

　　通過第一步的GWAS分析，我們知道哪些基因組的變化會一起一些特徵/疾病/表型的改變。

　　在此基礎上，我們就可以構建機器學習的算法，以基因組數據爲輸入變量、以特徵/疾病/表型的數據爲輸出變量，利用大規模的訓練數據去訓練模型，以預測基因組的突變會如何改變細胞，進而改變動物和人體的表現。

　　前面說到的生物創業公司DeepGenomics，他們的第一個產品是SPIDEX，就是預測基因組突變對RNA剪切的影響。

　　基因組突變→ RNA剪切

　　再舉一個例子，有的人天生能喝酒，有的人一沾酒就臉紅。這也是有基因在起作用的，酒精在人體先分解成有毒的乙醛，再通過乙醛脫氫酶分解成無害的乙酸。因此，乙醛脫氫酶的活性就決定了解酒能力。爲什麼每個人的乙醛脫氫酶活性能力不一樣?這是因爲人體ALDH2基因的rs641這個點發生了改變。同樣，我們或許可以利用機器學習的算法，訓練大規模數據去預測乙醛脫氫酶的活性能力的表現。

　　綜上所述，我們用GWAS找到了跟某個特徵/疾病/表型相關的基因，然後在大規模樣本數據中訓練機器學習算法，用基因的突變去預測細胞層面的改變。

【1】Deep Genomics：http://www.deepgenomics.com/

【2】GWAS：如果在患者中某基因型的變異很頻繁，那麼就說該變異與該疾病“相關”。相關的遺傳變異所在的人類基因組區域被視爲標示點，基因組的該區域可能是致病原因的所在。有兩種方法用來尋找疾病相關的突變：假說驅動和非假設驅動的方法。假設驅動的方法爲一開始假設一個特殊的基因可能與某種疾病有關，並試圖找出關聯。非假設驅動的研究用蠻力的方法來掃描整個基因組，看哪些基因與該病有關聯。GWAS一般採用非假說驅動。

【3】SNP：有的人吸菸喝酒卻長壽，也有人自幼就病痛纏身；同一種治療腫瘤的藥物對一些人非常有效，對另一些人則完全無效。這是爲什麼？答案是他們基因組中存在的差異。這種差異很多表現爲單個鹼基上的變異，也就是單核苷酸的多態性（SNP）。

【4】SNV與SNP：

SNV僅在一些個體發現

SNP在人羣中有一定概率

【數說·大數據圈】機器學習在生物大數據應用的一個例子文/飛揚

釘釘打卡速度慢

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Python 潮流週刊#51：用 Python 繪製美觀的圖表

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

Golang初學：獲取程序內存使用情況，std runtime

expected unqualified-id before ....的問題

關於跌倒

【數說·大數據圈】機器學習在生物大數據應用的一個例子文/飛揚

貪心--有限期排序--算法實現

我也要做大神

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結

【數說·大數據圈】機器學習在生物大數據應用的一個例子 文/飛揚

【數說·大數據圈】機器學習在生物大數據應用的一個例子文/飛揚