大數據專家Bernard Marr：大數據是如何對抗癌症的？

原文在2015年7月14日發表於：http://www.csdn.net/article/2015-07-14/2825204

導語：Bernard Marr 是大數據佈道者，著名科技作家，頂級商業數據專家。本文只有一小部分編譯於Bernard Marr寫的文章，編譯者又擴寫了70％的內容。

爲什麼要編譯這篇文章，一方面是講述大數據在生活中的應用，另一方面，作者則寫了一些話：

通過編譯與癌症有關的文獻得知，有近90%的癌症患病風險與人們的生活方式密切相關，而程序員羣體的生活方式，很多都處於不健康或亞健康狀態，如熬夜、加班、抽菸、缺乏運動，都是很多程序員的日常生活狀態。我們與其用寄希望於用最先進的技術（如大數據）來診斷和治療癌症，遠遠不如用良好的生活方式將癌症“扼殺於搖籃當中”。
2015年7月初，李開復先生在癌症醫治康復後，在其微博上解嘲自己：大家以後不要叫我李開復，叫我李康復就好了。如果生命可以後退30年，或許李先生會重新選擇自己的生活方式。有句話說得好：健康是前面的1，事業、財富、名利等都是其後的0，失去前面的1，一切皆爲零！
知易行難，共勉之！

以下是正文：

目前，當人們在談及大數據時，大家更爲津津樂道的是，如何利用大數據技術，挖掘出數據背後的商業新模式——然後利用這種“新”模式爲公司謀取商業利益。這也難怪，無利不起早。當下，大數據之所以能發展壯大，熱火朝天，來自於諸如谷歌（Google）、亞馬遜（Amazon）及臉譜（Facebook）等互聯網巨頭的大力推動，功不可沒。

人類社會已經開啓了三次產業革命。第一次產業革命，是以蒸汽機爲標誌。第二次產業革命，是以內燃機和電力發明爲標誌，第三次產業革命，是以可再生能源（如核能）和互聯網爲標誌。有研究表明，大數據或作爲動力引擎之一，引領人類的第四次產業革命。

如果大數據的用途，僅侷限於幫商業大佬們掙點錢花，那它絕對不能擔當起“天將降大任於斯人也”的重責。目前，科學技術已極大地拓展了人類的視野，大到通過是通過天文望遠鏡，探索浩瀚無邊的宇宙空間，小到利用顯微鏡細，致觀察構成自然界的最小微生物，科學技術無不扮演着重要的角色。

然而，多年以來，在人類社會，一直存在着一個難以降服的惡疾——癌症，嚴重威脅人類的生命健康。目前，癌症已成爲全球發病和死亡的最主要原因之一。據世界衛生組織（WHO）2015年最新的統計資料顯示統計資料顯示，僅2012年一年就有約1400萬新發癌症病例和820萬例癌症相關病例死亡。在未來20年裏，新發病例數將增加約70%，即死亡病例將從由2012年的1400萬上升到2200萬。

在過去的50多年裏，經過人類社會不斷的努力，癌症治癒率僅僅提升了不到8%。這是人類社會所有疑難雜病中，治癒率提升最爲緩慢的一種疾病。如果某項技術能較大提升癌症的治癒率，那可真是“善莫大焉”。事實上，大數據站在當前信息領域的最前沿，在對抗癌症的鬥爭中，可以走得更遠。

本文如下的篇幅主要分爲下面6個小部分，分別用來回答如下6個小問題：（1）什麼是大數據？（2）癌症的成因是什麼？（3）大數據用之於癌症，都有哪些挑戰？（4）當前都有哪些機構在用大數據抗爭癌症？（5）癌症診療的大數據主要源於何方？（6）大數據對抗癌症的前景如何？下面一一給予介紹。

1.什麼是大數據？

在談及大數據之前，我們先說說什麼是數據。

從一開始起，人類很多的生產及交換活動，都是以數據爲基礎展開的。例如，度量衡和貨幣的背後都是數據。人類最早有關數據存儲和分析的例子，莫過於記賬（或記錄財產）用的符木(Tally stick)。例如，1960年，在烏干達發現的伊桑戈骨（Ishango bone），就是史前數據存儲和計算的最早的物證（如圖1所示）。伊桑戈骨是一種由狒狒骨製作而成，距今已超過20,000年。

圖1 舊石器時代晚期的伊桑戈骨頭(Ishango Bone)（圖片來源：由譯者根據維基百科圖片二次繪製而成）

舊石器時代的部落成員（特別是首領），通常會在樹棍或者動物骨頭上刻下凹槽，用以記錄日常的交易活動或物品供應。通過比較樹棍或骨頭上凹痕的多少與變化，來進行基本的數據運算，從而可使部落首領夠對一些事情進行預測，如山洞裏食物還可維持幾天，何時再去打幾隻野兔等。

在本質上，數據代表的是已發生的事實，其核心的作用則是對未來的預測。

數據的發明，對人類文明的進步，發揮了舉足輕重的作用。傳統意義上的“數據”，可視爲“有依據的數字”。數字之所以誕生，就是因爲人類在長期的實踐過程中體會到，難以僅僅用語言、文字和圖像，來精確描繪自己身邊的世界。例如，由於每個人對“很”、“非常”這類虛詞理解不一樣，當有人問“今天天氣有多熱”，如果回答說“很熱”、“非常熱”，別人聽到後，也只能獲取一個大致的抽象印象。但如果用數字描述“今天40攝氏度”，就會毫不含糊，一清二楚。

把視野拉回當下。當人類社會進入信息時代以後，“數據”的內涵大大地被延展了，數據不僅是指“有根據的數字”，還包括存儲在計算機中的信息，如表格、文本、圖片、音頻和視頻等。

圖2 1986年~2007年這30年的全球信息存儲容量變化（圖片來源：wikipedia.org）

有研究資料顯示，自1980年以來，全球信息總量每24個月就可以翻一番。當時間邁過21世紀，自2002年數字時代開啓以來，數據呈現海量增長趨勢（如圖2所示）。特別是在2004年社交媒體產生後，人人都是數據的生產者，數據更是呈現爆炸性增長趨勢，大數據開始邁入大衆的視野。

由於處於計算機科學的前沿，大數據並沒有公認的定義。世界著名諮詢機構麥肯錫（McKinsey）公司於2011年5月發佈《大數據:下一個創新、競爭和生產力的前沿》的研究報告，報告認爲：“大數據是指，大小超出了典型數據庫軟件的採集、儲存、管理和分析等能力的數據集。”

麥肯錫的這個定義有意地帶有主觀性，對於“究竟多大才算大數據”，其標準是可以調整的。臉譜（Facebook）的工程總監Parikh認爲，“大數據”要有“大價值”。“大數據的意義在於，能從數據中挖掘出能對商業有價值的決策力和洞察力。如果不能好好利用自己收集到的數據，那麼空有一堆數據，即使體量再大，也不能稱之爲大數據。”

在大數據時代，由於我們創造的或採集的數據量呈現爆炸性增長，與此同時，隨着先進的高性能計算技術和便捷的雲計算技術的發展，給我們分析這些海量大數據提供了巨大的契機。抓住這個契機，比以往任何時候都更加重要。

針對癌症研究，2013年3月，世界頂級學術期刊《Cell》發表了一篇題爲《從癌症基因組中得到的教訓》（Lessons from the Cancer Genome），研究表明，很多腫瘤的發病概率呈現出一種類似於長尾分佈（“long tail” distributions）的特徵（如圖3所示），也就是說，癌症作爲一種基因突變疾病，雖然對部分癌症類型，是由於某些特定基因高頻突變所致，但是更多的癌症，是由很多的發生概率極小的基因突變所致。

圖3 長尾模型（圖片來源：由編譯者根據維基百科圖片二次繪製而成）

由於很多診療機構的癌症基因組樣本擁有量非常有限，這樣就導致，在小樣本集合裏，很多處於長尾部分的基因突變，由於發生概率極低，研究機構極有可能無法觀察到這種基因突變。

此外，由於機構之間的商業利益紛爭，加之出於癌症患者隱私的保護，醫療機構間的癌症診療基因數據無法互訪，彼此爲對方的信息“孤島”。

信息壁壘是延緩這種嚴重威脅人類生命健康研究進展的重大原因之一。這在某種程度上解釋了爲什麼過去50年癌症的治癒率僅僅提升了8%，這在所有的疑難雜症中是提升最少的！（注：若想了解更多具體詳情，建議讀者可參閱南加州大學著名腫瘤學專家、喬布斯的主治醫生之一戴維•阿古斯的著作《疾病的終結》（The end of illness））。

那有沒有什麼辦法，來改善這種情況呢？

事實上，我們可從過往的歷史中，尋找一點點啓迪。

世界上，第一家歐洲咖啡館（Coffee House）是於1645年在威尼斯開辦的。咖啡館開辦的目的在於，提供一個交流的平臺，讓三教九流不同種類的人，能夠聚在一起，指點江山，侃侃大山，從而完成思想的碰撞，進而產生新的價值——比如，促成一場新的貿易等。在咖啡館裏，有一個特徵是值得特別注意的，大家聊完天，侃完大山，各回各家，各找各媽，誰也沒有損失！

試想一下，如果讓多家醫療研究機構的癌症診療數據，也能在“數字咖啡館”走一遭，碰一碰，或許也能碰撞出“新的火花”，加速癌症的研究。這裏的“數據咖啡館”是由英特爾公司主導開發的一項數據共享技術。針對癌症研究，數據咖啡館的核心理念就是，讓不同研究機構的癌症診斷數據，“可用但不可見”——在不破壞數據歸屬的基礎上，完成對可用信息的提取，這真是個了不起的想法（注：案例介紹來自於英特爾中國研究院院長吳甘沙先生的講座）！

癌症如此的難以克服，那麼癌症從何而來呢？有什麼辦法可以預防？下一節，我們將討論這個議題。

2.癌症從哪裏來？

癌症是什麼？癌症是一組與基因突變有關的疾病，其特徵表現爲，異常細胞生長不受控制，且肆意攻擊正常細胞組織。如果癌症細胞一旦失控擴散，就會導致癌症細胞的宿主（這裏通常指的是人）死亡。

所謂基因，是指攜帶有遺傳信息的DNA序列片段，它是控制性狀的基本遺傳單位。由於DNA分子中發生鹼基對的增添、缺失或改變，從而引起基因結構的改變，稱之爲基因突變。導致基因突變，進而引發癌症病發的因素有二，下面分別給予簡要介紹：

2.1外在因素

據美國最知名的癌症研究中心——MD安德森研究表明，所謂的外部環境泛指所有非遺傳因素，包括但不限於，不良的生活方式（如濫用菸草，酗酒）、缺乏體力活動、工作壓力大、環境污染，主（被）動地接觸傳染性生物體、不良化學品和輻射等。這些外在因素佔癌症發病率比例的90%~95%！其中，最常見的外在因素導致癌症死亡比例中，濫用菸草佔25% ~ 30%，不良飲食和肥胖佔30% ~ 35%，單純僅此二項之和就佔據55%~65%，超過了癌症死亡的“半壁江山”。

很遺憾地說，這類癌症導致的“不可活”，多是源於病人自己的“自作孽”！

下面舉例說明之。圖4所示爲菸草消費量與20年後肺癌發病率的滯後相關性。所謂“相關性”，是指兩個或兩個以上變量的取值之間存在某種規律性。這種相關性的滯後，是很容易理解的。因爲今天抽支菸，並不會立馬就讓抽菸者的肺部有癌症病症。事實上，抽菸的危害作用是可以日積月累的，它的“功效”能潛伏20年之久！

圖4 菸草消費類於肺癌發病率高度相關（圖片來源：wikipedia.org）

換句話說，20歲的你，年輕任性，“一枝梨花壓海棠”，瀟灑地抽了一口煙，就爲人到中年、事業有成40歲左右的你，培養了一個可能突變的癌細胞。但正因爲這個巨大的滯後時間間隔——20年，“麻痹”了很多人：抽支菸，解解乏，也沒有什麼大不了的。殊不知，這種菸草消耗量和肺癌發病率的巨大的相關性，不得不讓人們側目、反省、深思。

當然，也會有人會站在學術層面表態：“相關性”不代表“因果性！”

的確，從嚴格意義上講，統計學無法檢驗邏輯上的因果關係。根據統計結果，可以說“抽菸人羣的肺癌發病率，會比不抽菸人羣的發病率，高好幾倍”，但統計結果無法得出“抽菸致癌”的邏輯結論。

中國概率統計領域的奠基人、國際著名數理統計學家陳希孺院士，生前常用這個例子來說明統計學的特點（案例來源：李國傑院士《大數據研究的科學價值》）。

但話說回來，大數據佈道師維克托•邁爾-舍恩伯格在其著作《大數據時代》中提到的核心觀點：“要相關，不要因果”。也就是說，大數據關注事物間的相關性(correlation)，而非緊盯事物之間的因果關係（causal relation）。

也許正是因爲統計方法並不致力於追尋事物間的因果關係，才促使數據挖掘和大數據技術在商業領域廣泛流行。利用大數據分析的企業，其目標就是多掙些錢，只要從大數據挖掘中發現某種措施與增加企業利潤有較強的相關性，然後採取這種措施就好了。

既然大數據的“相關性”可以正向指導商業獲利，爲什麼我們不能“反其道而用之”呢？

雖然，目前還不能充分證明抽菸人羣與肺癌發病率的因果關係，但我們已然“鐵板釘釘”地證明了他們的相關性，爲了活命，爲何不能通過破壞他們的相關性——試一試不抽菸，結果會怎樣？

2008年，大名鼎鼎的MD安德森癌症研究中心，在《Pharmaceutical Research》發表文章表明：“癌症是可預防的，但它要求改變你大部分的不良生活習慣（Cancer is a Preventable Disease that Requires Major Lifestyle Changes）”。

生命只有一次，且行且珍惜！

2.2內在因素

致癌的內在因素，主要來自於遺傳突變、免疫病症、新陳代謝引發的突變等。研究表明，其實僅有5%~10%的癌症患者是源於基因缺陷。對於這類多數爲先天性的癌症疾病治療方案，包括免疫治療、靶向治療，甚至是提前手術——切除病竈。

2013年2月16日，時年37歲的好萊塢當紅女影星安吉麗娜•朱莉(Angelina Jolie)在《紐約時報》撰文，自曝接受預防性雙乳切除術。之所以切乳，是因爲通過檢查，她發現自己有基因缺陷，罹患乳癌的風險機率高達87%，而罹患卵巢癌的風險機率也達到50%。

安吉麗娜•朱莉從母親那遺傳了突變的癌症易感基因BRCA1。BRCA1是Breast Cancer Susceptibility Gene 1（乳腺癌易感基因類型1）的縮寫，這是一種抑癌基因。在抑癌基因的作用下，正常人體每天也會產生的少量癌細胞，但很快就會被抑制或被免疫系統識別而消滅掉，並不會形成腫瘤。如果BRCA1基因突變導致抑癌功能的丟失，乳腺癌、卵巢癌或一些其他腫瘤發病率就會明顯升高。

圖5 接受預防性雙乳切除術的安吉麗娜•朱莉（圖片來源：wikipedia.org）

安吉麗娜•朱莉的母親就是因爲攜帶這種基因而導致卵巢癌，56歲時因病去世。朱莉不想重蹈覆轍，因此接受了預防性的手術，來降低癌症風險。2015年3月24日，她再次宣佈切除了卵巢和輸卵管。

注：中國留傳下來一句老話，“人的命，天註定”。批判者會說這是“宿命論”的迷信，高喊“王侯將相，寧有種乎！”但就癌症而言，真的是有5%~10%的人，似乎是“天註定”——先天攜帶基因缺陷，極易致癌！

有時候想想，也真夠弔詭的：“迷信”通常是站在“科學”的對立面的，但在某些情況下，我們卻用“科學”證明“迷信”是“科學”的！

3.大數據用之於癌症鬥爭，挑戰何在？

取得對癌症鬥爭勝利的關鍵，就要尋找到藥物的聖盃（Holy Grail）。在生死關頭，幾乎沒有人不動容，要麼怕自己死掉，要麼怕自己心愛的人死掉。因此，毫無疑問，如果大數據能以某種方式來幫助提升醫療水平，識別癌症潛在風險，並最終給出可靠的治療方案，這是件多麼“夕陽無限好”的事啊。

大數據用之於癌症鬥爭，一開始並不會那麼順風順水。其前途無量，但道路曲折。欲取得這場戰爭的勝利，還面臨很多挑戰，例如，癌症診療數據獲取難，數據決策執行難等，下面一一簡要描述之。

3.1 癌症診療的基礎大數據——獲取難

目前，在醫療領域，面臨的一個重大挑戰就是如何獲取有關癌症病人的大量診療數據。

美國臨牀腫瘤學協會（American Society of Clinical Oncology，ASCO）首席執行官Allen Lichter曾指出，在超過96%的病例中，病人的詳細治療信息“被鎖在醫療檔案和文件櫃或者存儲於未聯網的電子系統中”。

“各自爲政”的各個醫療機構，並非沒有意識到醫療數據流通的重要性。但由於涉及到病人的隱私問題、機構間的利益衝突以及純粹缺乏電子病歷，阻礙着醫療領域的信息共享，讓每一次癌症治療，都像發生一個孤立事件。

令人惱火的是，很多醫療機構的診斷數據，要麼從一開始就是一堆紙質文件，根本就沒有數字化，從而不能更大範圍的共享。要麼利用電子病歷數字化後，然隨後就束之高閣，形成信息孤島。

各個醫療機構僅在可供自己訪問的小數據集合上施以分析，形成最終結論，這如同“盲人摸象”一樣，是片面的，甚至是錯誤的。如果醫療領域的信息共享能取得進展，人們很有可能發現更具普遍意義的治療方案。

我們知道，大象不是盲人根據大象局部位置的觸感，得出的 “大蘿蔔”、“大蒲扇”、“大柱子”或“細草繩”，大象就是大象。但要得出這個結論，就要睜開眼，看到大象的全景。

在癌症診療數據分析中，同樣也是如此。我們應看數據的全景，而不是僅僅根據事物的小樣本數據就下結論。只有這樣才能全面和真實的瞭解事物的情況。這或許就是舍恩伯格在《大數據時代》中說的“要全體，不要樣本”吧。

前文我們提到，癌症是一類長尾病症，每一個研究機構的基因組樣本都相對有限。“小樣本”得出的研究結論，得出有關“癌症診斷”的結論，極有可能是“盲人摸象化”的。

英特爾公司提出的“數據咖啡館”，其核心理念把不同醫療機構的癌症診療數據匯聚到一起，形成大數據集合，但不同機構間的數據，“相逢但不相識”，“可用但不可見”。一旦“數據咖啡館”項目能成功實施，勢必在某種程度上加速癌症研究的技術突破。

3.2 數據化帶來的顛覆式醫療——執行難

在醫療領域，欲用大數據對抗癌症，其面臨的另外一個重大挑戰就是，如何讓醫療領域的從業人員發生重大的思維轉變——重視數據文化。

數據文化的本質，就是尊重客觀世界的事實，實事求是。重視數據就是強調用事實說話、按理性思維的科學精神。

而在醫療領域，似乎更看重的是“經驗”！

《顛覆醫療——大數據時代的個人健康革命》（The Creative Destruction of Medicine: How the Digital Revolution Will Create Better Health Care）一書的作者、美國著名心臟病學家、基因組學家——埃裏克•託普（Eric Topol）認爲，醫學領域是目前所有領域中最爲保守的，在數字化革命以來，似乎被完全孤立起來一樣。但在未來的幾年裏，醫學領域將不可避免的被“熊彼特化”——即被創造性破壞。

圖6 破壞似創新理論的提出者——約瑟夫•熊彼特（Joseph Schumpeter）（圖片來源：wikipedia.org）

目前，信息技術（特別是現在的大數據技術）就如同一個“鮎魚”，它遊進哪個領域，都會帶來“創造性破壞”。“創造性破壞理論”是著名美籍奧地利經濟學家約瑟夫•熊彼特（Joseph A. Schumpeter， 1883～1950年）最有名的觀點。在熊彼特看來，每一次大規模的創新，都淘汰舊的技術和生產體系，並建立起新的生產體系。

大數據給醫療領域帶來的“摧枯拉朽”、“吐故納新”，是醫療領域目前必須承受的“變革之痛”！

4.哪些機構在用大數據對抗癌症？

倘若沒有商業大公司和醫療行業的大力推動，大數據對抗癌症的戰爭，多半如同“水中撈月”、“霧裏看花”一樣不靠譜。然而，令人欣慰的是，諸如IBM、美國臨牀腫瘤學協會和谷歌等巨頭公司和行業協會的重度參與，給大數據對抗癌症帶來了勝利的曙光。

4.1人工智能驅動的癌症診斷大師——沃森

2011年，IBM超級機器人沃森（Watson），在美國著名電視智力競賽節目“危險邊緣（Jeopardy）”中，戰勝了兩位人類智力冠軍——最高獎金得主布拉德•魯特爾和連勝紀錄保持者肯•詹寧斯，並贏得100萬美元的獎金。

圖7 電腦對壘人腦（圖片來源：FT中文網）

如今，“功成名就”的沃森已開始轉戰醫療領域。自2012年起，沃森開始在美國一家名爲“紀念斯隆-凱特琳癌症中心（Memorial Sloan-Kettering Cancer Center）”開始實習。

沃森人工智能（AI）系統，就像一名在醫學院接受嚴格訓練的預備役醫生那樣，每天“學而時習之”——它每天學習數以百萬計的臨牀資料數據、期刊文章以及臨牀試驗報告，然後通過“人工智能”算法，學習如何正確診斷疾病、並拿出可行的治療方案。目前沃森能幫助醫療專家做癌症等複雜診斷，以及指出醫療專家可能忽略的細微差別。

2015年5月，美國和加拿大的14家癌症研究機構宣佈，將使用IBM公司的沃森智能數據分析引擎，其在海量癌症病例數據庫中，尋找和當前病例最爲相匹配的癌症患者診療信息，從而協助醫生給出最爲有效的診斷方案，以及給出最有可能治療特定患者的抗癌藥物。

沃森（Watson）智能系統，通過對自己體內龐大的診斷數據庫——病理和藥理分析，還可挖掘出新的關聯關係，智能“推薦”從未在癌症治療使用過的藥物。

在沃森（Watson）智能系統中，通過編寫數據挖掘分析算法，沃森可以模擬人體和成千上萬種藥物做病理和藥理實驗。細胞突變是造成癌症的主要因素，經過一番“深思熟慮”，根據自己的“博學”醫學經驗，沃森可以給出抑制突變細胞最有效的藥物。當然，在是否採納由人工智能（AI）驅動下的沃森的建議上，醫生肯定會綜合考量多種因素，但是可以肯定的是，由於沃森的參與，它無疑會大大會加快醫生決策的過程。

4.2 醫學大數據的解讀先鋒——CancerLinQ

用大數據技術來化解癌症之痛，是一個很有前途的方向。朝這個方向努力的先行者是——非營利專業組織美國臨牀腫瘤學協會（American Society of Clinical Oncology，ASCO）。2013年12月，ASCO開啓了一個利用大數據幫助癌症治療的項目——CancerLinQTM，該項目設計的目的在於，力圖收集成千上萬癌症患者的診療數據，用於指導對醫療系統內其他病人的治療。

癌症患者的主治醫師將能像用谷歌一樣，搜索這個診療大數據庫——CancerLinQ。根據其他類似病例的治療情況，醫生可獲得診療策略方面的建議。

事實上，CancerLinQ本身還是一個“快速學習系統”，通過機器學習技術，可從海量醫療數據中發現有價值的模式，進而形成對癌症深度洞察，並加快發現新葯的速度。

ASCO腫瘤信息委員會主席Gregory Masters教授說，我們已經進入精準醫學時代，隨着對腫瘤學深入瞭解，將會研製出新的靶向藥物，用來定向治療某種特定癌症。CancerLinQ在這其中，將發揮及爲重要的先鋒作用。

4.3“熨平”混雜數據的夥計——FlatIron Health

大數據所需面臨的挑戰還在於，從我們身邊的大千世界中獲取的數據，十之七八是凌亂無章的，非結構化數據（注：事實上，這正是大數據的4個V特徵之一的Variety——多態性）。

儘管多年來，醫學管理機構一直在努力說服醫生和醫院採用電子病歷（Electronic Medical Record， EMR），但面向癌症的診療數據，依舊難於查找和使用。每位癌症患者的數據可能會有幾十個來源：實習醫師、腫瘤科醫生、放射科醫生、外科醫生、化驗室和病理報告等等。

即使這些診療信息已經數字化，也存在着IT技術人員所說的“格式散亂”問題。這些數據的來源很多，有來自病歷資料的、醫生筆記的、與護理人員互動交談信息的，還有癌症患者的治療付費信息。

不同診斷設備的後臺數據庫沒有經過規整，展示方式因化驗報告和病歷的不同，而存在巨大差異，結果造成各種數據庫系統無法兼容，再加上有關個人健康信息的嚴格隱私規定，令共享數萬種腫瘤療法變得難上加難——數據融合成爲醫療大數據的利用的“頭等大事”

值得慶幸的是，大數據技術的過人之處就在於，能就從混雜的、非結構化數據便捷地抽取有價值的信息。

在2012年，納特•特納（Nat Turner）和扎克•溫伯格（Zach Weinberg）成立Flatiron Health，並構建了OncologyCloud（腫瘤學雲平臺），該項目旨在整合全世界的腫瘤數據。

以“不作惡不（Do not be evil）”爲公司口號的谷歌，再次爲Flatiron打開支票薄，通過其風險資本部門谷歌風投公司（Google Ventures）給Flatiron注資超過1億美元，成爲Flatiron的幕後老闆。

FlatIron Health公司認爲，大多數的有臨牀價值（癌症）數據，停留在醫生和護士的筆記，病理報告，PDF文檔、CT掃描圖形和其他非結構化形式資料中。

此外，目前僅有一小部分癌症患者的治療數據得到了有系統地採集。這種採集基本上是在臨牀試驗中隨意爲之的，只覆蓋了大約4%的癌症患者，96%的癌症患者其實是不願意參與臨牀試驗的。

傳統的人口健康分析報告，主要基於患者向保險公司提供的病情理賠數據，這的確可達到立竿見影地分析效果。但對於癌症——這個高度複雜的病種，則難以獲得對該疾病的深度理解。僅僅通過腫瘤病情的理賠數據來加以分析，從而來獲知對癌症的洞察，這無異於冰山一角，管中窺豹、“僅”見一斑！如果要想獲得“臨牀真理”，你就必須深入腫瘤病情的細節。

FlatIron項目希望能從餘下的96%患者中，採集更多的數據，然後加以整理，實現標準化，然後將數據提供給醫生。Flatiron的厲害之處就在於，它可抓取醫患之間各個階段的交互數據。不管這些數據的多模態的，還是非結構化的，Flatiron都可以很好的利用這些數據，從而使之可以與其它數以百萬計患者數據，進行比較分析。

目前，還有些其它研究特定類型的癌症專家系統。例如，Dragon Master基金會就與五家美國兒科醫院合作，從罕見兒童腦腫瘤患者提取組織樣本，建立癌症樣本數據庫。

Dragon Master基金會認爲，癌症完全是由細胞突變引起的，其主導的研究致力於，從我們的身體中複雜的遺傳數據——基因組（Genome）中探尋癌症致病的機理。

5. 癌症大數據的重要源頭——基因組數據

現在，很多知名癌症研究中心都會提供全方位的基因分析服務，尤其是針對晚期癌症患者。藉助於所有這些基因數據，醫生們可以重新對患者進行分類。人們再也無需像以前那樣，用‘癌症X期’描述一名癌症患者，而是可以用癌症分子的驅動水平，來精確地描述癌症病情。從這個基因層面上診療癌症，是2015年1月美國總統奧巴馬宣佈的精準醫療計劃（precision-medicine plan）背後的驅動力之一。

基因組數據是典型的大數據。例如，位於馬里蘭州的、由美國國家生物技術信息中心(National Center for Biotechnology Information ，NCBI)維護的GenBank序列數據庫，收納了世界各地實驗室中測得的10多萬不同的生物序列。

值得注意的是，就在我們眼皮底下，存在着一項超越摩爾定律（Moore’s Law）的數字技術——DNA測序。DNA測序的應用越來越普遍，但是其成本的下降幅度已遠超出了摩爾定律的預計。

圖8 DNA結構（圖片來源：編譯者繪製）

僅以GenBank來說明生物序列數據增長的趨勢。根據GenBank公佈的文獻資料顯示，自1982年創庫以來，其容量以指數級的速度增長，平均每18個月翻一番，而測序成本也隨時間大幅下降，其趨勢完全趕超IT領域的“摩爾定律”，如圖9所示。

圖 9 GenBank的容量每18個月翻一番（圖片來源：編譯者繪製）

目前，爲了存儲由基因組測序儀輸出的原始代碼——基因組數據，計算機系統需要存儲200GB數據（譯者注：博文作者Bernard Marr可能對生物信息學瞭解不甚瞭解，或其語焉不詳。事實上，僅單條個人的全基因組數據大小就達到140GB，更何況要構建包含非常多的癌症患者的基因組數據庫。對此，欲瞭解更多信息，讀者可參閱《Naure》上的一篇文章：生物學：大數據的大挑戰（Biology: The big challenges of big data）

研究者們可利用這些基因組數據，實施全方位的比較分析，從不斷增長的基因組數據庫中，找出是哪些因素（如致癌基因）是觸發癌症的關鍵要素。

在前文提到的美國奧巴馬政府推出的精準醫療計劃中，就包括“百萬基因組計劃（Million Genomes Project）”，在該計劃中，預備測量一個百萬個人類基因組樣本，也就是說，其容量是100萬個140G。大數據的“大”，在容量上，已被它結結實實地坐實了！

然而，“大”並不是大數據的最難以克服的挑戰，這僅是個規模問題。有些項目，諸如Folding@home就通過提出主動式方案，來解決規模的問題。該方案可充分利用全球性的、分佈式網絡處理能力，大大加速了在該蛋白質數據的利用率和解碼效率。

注：Folding@home是一個研究研究蛋白質摺疊，誤折，聚合及由此引起的相關疾病的分佈式計算工程。Folding@home的中文含義就是“在家摺疊”， “摺疊（Folding）”是蛋白質的最重要的性狀之一，如果蛋白質沒有正確地摺疊，人類會遭受某些病症的折磨。許多疾病，諸如阿茲海默症(Alzheimer's)，瘋牛病(Mad Cow/BSE)，還有帕金森氏症(Parkinson's)等，特別是一些癌症疾病等，正是由於一些細胞內的重要蛋白髮生突變，導致蛋白質聚沉或錯誤摺疊而造成的。

圖10 Folding@home客戶端，點擊可下載（圖片來源：編譯者截圖）

Folding@home項目參與的志願者，可以通過下載一個客戶端，在家裏（@home）就可以利用自己電腦（甚至是安卓、蘋果手機）的閒置計算資源，來幫忙處理部分蛋白質數據的計算。一旦當前的客戶端關閉，客戶端就會自動把計算得到的臨時結果發回計算中心，再由計算中心找到另外一個適用的志願者客戶端，接力計算。2003年，Folding@home項目完成了它的第一個分佈式計算項目。

Folding@home項目之所以能夠成功，究其本質，是因爲“衆人拾柴火焰高”，它充分整合世界各地的志願者的閒置計算資源，來完成以往只能在大規模超級計算機上完成的項目。這是衆多大規模分佈式計算項目之一，也是最出名、普及最廣的“網格計算”項目。而“網格計算”，在某種意義上，就是現在熱炒的“雲計算”的媽媽）。

6.大數據對抗癌症，前景如何？

前面我們說道，大數據對抗癌症的戰爭中，已經吸引諸如IBM、谷歌和美國臨牀腫瘤學協會的重度參與，前途看似一片光明。

然而，在癌症研究領域，也有部分領軍人物，對大數據的長期抗癌前景表示質疑。例如， MIT（麻省理工學院）癌症研究中心的著名學者羅伯特•溫伯格（Robert Weinberg），就在《細胞》雜誌（Cell）撰文，指出大數據和癌症之間存在不穩定的關係。他強調說，從腫瘤裏的蛋白質間的相互作用到基因突變，各方面多形式的數據膨脹，已經遠遠超過研究人員的解讀能力。

我們常說，前途是光明的，但道路是曲折的。在征服癌症的這條道路上，“路漫漫，其修遠兮”。在這條路上，有一份質疑，多一份冷靜，或許可以讓路走得更遠。

簡而言之，大數據領域的科學技術和癌症之間的戰爭，剛剛打響。這場戰爭勝利的號角，遠未到該吹響的時候，但戰鬥正在取得顯著地進展。就在今年，英國頂級學術諮詢機構UCL Consultant，就給出一項研究結論，到2050年，年齡在80歲以下人羣，都不會死於癌症。

就如同大數據在其它跨界領域研究大放異彩一樣，我們有理由相信，由大數據驅動技術的有關癌症的研究，在獲取這場大數據對抗癌症的戰爭中，無疑將扮演舉足輕重的角色。

譯者介紹：張玉宏，博士。2012年畢業於電子科技大學，現執教於河南工業大學。中國計算機協會（CCF）會員，ACM/IEEE會員。主要研究方向爲高性能計算、生物信息學，主編有《Java從入門到精通》一書。

部分原文來自：Forbes

玉來愈宏

發佈了41 篇原創文章 · 獲贊 57 · 訪問量 10萬+

私信關注

大數據專家Bernard Marr：大數據是如何對抗癌症的？

以下是正文：

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

Java ThreadPoolShutdown

“她”來了，陪伴賽道鉅變！爲GPT-4o加上你的一個數字分身

京東秒送售後系統退款業務重構心得| 京東零售技術團隊

數據的黑暗陷阱是什麼？——你想要一匹更快的馬，還是一輛汽車？

【深度學習之美】神經網絡不勝語， M-P模型似可尋（入門系列之三）

乾隆會判阿爾法狗死刑嗎 ——淺談當前人工智能的技術進化

大數據時代的小數字感：數據再有價值，別人聽不懂照樣沒用

AI不可怕，就怕AI會畫畫——這裏有一種你還不知道的‘圖’靈測試…

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結