聊一聊生信雲(計算)

生信雲(計算)作爲生物信息學發展的產物,它在生物信息學整個學科發展中起到了舉足輕重的作用。生物信息學領域科研人員日常進行的數據分析工作已經和生信雲緊緊聯繫在一起。在可以預見的幾十年內,生信雲將會成爲雲計算領域中消耗資源最多、影響力最大的方向之一。

生信雲一直是我比較感興趣的方向,2018年11月初有機會到杭州華爲雲走一趟,讓我更想專門聊一聊生信雲。這篇文章主要來源於我日常在生信雲方向上的一些閱讀和思考。

我們最早接觸“雲”這個概念(圖一),大多是飄在天空上的白色物質(水蒸氣),如雲朵、雲彩等。比如《西遊記》中孫悟空踩着的筋斗雲。

柯林斯詞典“雲”的註解:

  • A cloud is a mass of water vapour that floats in the sky. Clouds are usually white or grey in colour.
  • A cloud of something such as smoke or dust is a mass of it floating in the air.
  • If you say that something clouds your view of a situation, you mean that it makes you unable to understand the situation or judge it properly.
  • If you say that something clouds a situation, you mean that it makes it unpleasant.
  • If your eyes or face cloud or if sadness or anger clouds them, your eyes or your face suddenly show sadness or anger.
  • If glass clouds or if moisture clouds it, tiny drops of water cover the glass, making it difficult to see through.
  • Cloud-based technology allows you to use programs and information that are stored on the internet rather than on your own computer.
  • ......

圖1 雲(Clouds)

時至今日,“雲”一詞已經不再只是“白雲”(圖一),已經華麗變身爲互聯網行業、甚至是普羅大衆都耳熟能詳的計算機術語。

你對“雲”有多少了解?

我理解的“雲”,主要是指那些需要通過網絡連接的遠程服務器。用戶通過網絡連接遠程服務器,就可以利用那些不在本地設備(比如個人PC、手機等)上的數據和程序,完成更復雜的計算或者任務。

雲計算

雲計算是可配置式計算機系統資源和更高水平服務的共享池,可以通過最少的管理工作快速配置,並通常通過互聯網連接。雲計算依賴於資源共享來實現一致性和規模經濟,類似於公用事業。---維基百科

“雲計算”是一個真正的網紅詞彙,早在2011年,就已經在互聯網上被使用超過4000多萬次。“雲計算”最早是在1996年被提出。你可以想象當時的場景,在美國得克薩斯州一間小辦公室(半導體製造商Compaq Computer公司),一小羣技術極客正在策劃互聯網業務的未來:“雲計算”。轉眼到2006年,亞馬遜公司當時推出的彈性計算服務器,使得“雲計算”真正的開始普及,並開始被廣泛使用。

雲計算服務模式

主要的雲計算服務模式:

  • 基礎設施即服務(IaaS)
  • 平臺即服務(PaaS)
  • 軟件即服務(SaaS)
  • 移動“後端”即服務(MBaaS)
  • 無服務器計算
  • 作爲服務的功能(FaaS)

詳細信息參見:Wiki百科。

雲計算部署類型

主要的雲計算部署類型:

  • 私有云
  • 公共雲
  • 混合雲
  • 其他(社區雲、分佈式雲、多聲道、大數據雲、HPC雲)

私有云是專爲單個組織運營的雲基礎架構,無論是內部管理還是第三方管理。如果服務是通過公開網絡,則被稱爲“公共雲”。公共雲服務可能是免費的(比如一些商業公司提供的免費存儲空間或者計算資源)。

混合雲是兩個或多個雲(私有云,社區雲或公共雲)的組合,它們保持不同的實體但綁定在一起。組織/用戶可以將敏感的客戶端數據存儲在私有云,不敏感的數據存儲在公共雲,私有云的應用程序也可以單向和託管在公共雲服務器上的應用程序進行互聯通訊。

醫院大多會選擇私有云或混合雲進行部署雲計算資源,病人相關的敏感數據大多會存放在嚴格保護的醫院內部私有云上並完成數據分析過程。不過,當高通量測序技術真正成爲臨牀檢測中的常規技術之後,這些基因數據對存儲和計算的資源需求將會遠遠超出目前各個醫院所採購/將要採購的私有云硬件設施。在國外,部分Top級醫院已經開始利用公共雲存放、計算和共享病人脫敏的測序數據(如全基因組等):大型生信雲平臺(圖二)。

圖二 美國聖述德兒童醫院 St. Jude Cloud (共享超過5000例兒童癌症全基因組、6000例外顯子、1500例RNA-seq數據),DOI: 10.1158/1538-7445.AM2018-922

生信雲

生信雲是雲計算市場中必不可少且增長速度最快的部分之一,是雲計算行業最具實際應用價值的方向之一:承擔人類疾病數據的存儲、數據挖掘和知識轉化

生信雲主要面向的是生物學、醫學等生命科學領域,涉及到生物信息學數據存儲和分析的各個方面,比如基因序列數據的壓縮技術、基因序列的質量控制、比對、組裝、查詢、基因組序列和結構變異的檢測和註釋、mRNA轉錄本定量、融合基因檢測、可變剪接檢測、基因組/轉錄組/表觀組關聯分析等等。圖三圖四從Omictools截取了一部分生物信息學分析應用。

圖三 Omictools DNA 序列分析應用

圖四 Omictools RNA 數據分析應用

用戶的生信雲需求

用戶在生信雲上的需求非常廣泛,其中數據存儲/管理、數據分析應用是用戶兩個最主要的應用層需求方面。

  • 如何快速、便宜地上傳/存儲/分析/下載自己的測序數據(這一需求已經限制了大多數生信雲應用和平臺的普及和推廣)
  • 如何快速獲取公開的或者授權獲取的測序數據資源以及下游分析結果、數據庫整合應用(基於公共雲平臺的吸引力之一)
  • 數據的壓縮、臨牀樣本庫管理系統、生物信息學項目管理系統、數據託管系統、臨牀知識庫管理系統(數據存儲和管理)
  • 基於容器化的生信數據分析Pipeline、臨牀檢測報告系統等(數據分析應用)
  • 其他:公共數據爬取應用、個性化雲可視化平臺......

圖五 Omictools 基因序列壓縮應用

生信雲生態

生信雲生態是生信雲技術發展所依賴的土壤。和自然生態、社會生態一樣,生信雲的發展、進步離不開一個良性發展的“生態系統”,好的生信雲生態將有利於整個行業的發展。

建設生信雲生態的意義:

  1. 有利於讓用戶建立開放科學的思想、促進生信大數據的積累和共享(數據共享是一個大趨勢,頂級英文雜誌大多會要求共享原始數據。 )
  2. 減少生信數據的資源浪費(如數據的冗餘存儲)
  3. 滿足用戶的個性化需求、促進知識挖掘和轉化
  4. 簡化生信數據的再利用和重分析過程
  5. 促進生物醫學的知識挖掘和轉化速度
  6. ......

下面列了一些比較大型、免費的數據/分析軟件共享倉庫:

  • dbGaP
  • GEO
  • EGA
  • DDJB
  • GSA
  • GitHub
  • Zenodo

這些數據庫/網站已經極大的改善了生物組學數據/工具的共享和分發。不過,目前科研人員利用這些平臺的數據/軟件仍然需要拷貝/下載到自己的服務器上。期待在未來,這些數據可以同步、分散存放在全球按國家/地區建設的幾大數據中心(公共雲),科研人員通過公共雲平臺進行數據挖掘,減少數據傳輸的外網帶寬佔用,減少原始數據的存儲硬盤消耗。

除了數據共享和數據的存儲,數據分析流程的質量控制以及數據的重分析也都是我們必須要面對的問題。

有多少研究組/機構會對自己的生物信息學分析流程進行質量控制和管理?使用標準化,經過質量控制的數據分析流程對最終結果的重現性和準確性至關重要。

有多少研究組/機構會有計劃地、系統地、規範地重分析自己幾年前的數據(特別是疾病相關的數據)?綜合的數據重分析和再利用有利於驗證之前的分析結果和發現新的知識,比如TCGA項目組開展的Pan-cancer項目就是腫瘤學數據重分析項目最好的例子。

建設生信雲生態面臨的挑戰、困難以及可能的解決方案

  • 開放科學思想在國內不是那麼深入人心(可能需要大範圍建立科研協作組;科研協作組內共享數據,統一數據質量控制和分析流程)
  • 公共雲的網絡傳輸速度和價格是否已經符合大面積推廣生信雲的要求?(5G通訊技術;電信網絡擴容(數據中心間建立專網))
  • 生信雲推廣前期的種子用戶是哪些(醫院、科研單位、商業公司)?可以負擔起昂貴的公共雲費用(存儲和網絡通訊費)的用戶量目前仍然較少(國家定向減免、補貼與醫學研究相關的重大基礎設施和網絡通訊費;商業公司參與實際科研項目、共享數據和專利產權)
  • 如何說服機構的生物信息學負責人/行政領導人蔘與到生信雲生態的建設,用戶/機構大多持有儀器採購觀念、數據獨享觀念(國家層面的統籌規劃和協調、重點項目的示範作用)
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章