醫療行業大數據醫療分析案例

某公司國家863項目申請計劃書,有幸參與其中,現將部分構思設想與大家分享,希望可以獲得更多的交流。


1.主要研究技術內容的國內外發展現狀與趨勢

2013年是世界大數據元年,基於大數據的信息挖掘引發了醫療領域的巨大變革。大數據的“大”不僅表現在數據的規模性,而且體現在存儲、處理、分析數據的高速性上,而數據也不僅僅體現在數字化數據,如今定義的數據不再僅僅侷限於數字,更廣義的文本、圖像、聲音、HTTP文本和傳感器信息等一些可測量的信息都將數據化。IBM將“大數據”理念定義爲4個V,即大量化-Volume、多樣化-Variety、快速化-Velocity以及產生的價值-Value四個屬性。例如,2009年,美國谷歌(Google)公司在《自然》(Nature)雜誌上發表了關於流感預測的論文,成爲大數據在醫療衛生應用的典範,在醫學界引起巨大反響。Google公司把5000萬條美國人最頻繁檢索的詞條和美國疾病預防控制中心(CDC)在2003~2008年季節性流感傳播時期的數據進行了比較,希望通過分析搜索記錄來判斷是否流感暴發。結果顯示,Google公司的數據不僅可以預測流感的暴發情況,而且可以具體到特定地區和州。又如麻省理工學院、密歇根大學和一家婦女醫院創建了一個計算機模型,可利用心臟病患者的心電圖數據進行分析,預測在未來一年內患者心臟病發作的機率。在過去,醫生只會花30秒鐘來觀看用戶的心電圖數據,而且缺乏對之前數據的比較分析,這使得醫生對70%的心臟病患者再度發病缺乏預判,而現在通過機器學習和數據挖掘,該模型可以通過累積的數據進行分析,發現高風險指標。有報告顯示,醫療大數據的分析會爲美國產生3000億美元的價值,減少8%的美國國家醫療保健的支出[18]。

另一項是英國臨牀實踐研究數據庫(CPRD)的數據研究,用巢式病例對照研究的方法分析了含鈉藥物製劑對心血管事件發生率的影響。該研究的對象爲1987年1月至2010年12月期間、服用至少兩種含鈉鹽的藥物製劑或相同藥物標準制劑的成人初級保健患者,對1300000例患者進行了長達7年的隨訪,共記錄61000次心血管事件。對於每一個病例都設有一個年齡、性別及臨牀治療相匹配的對照。研究發現服用含鈉製劑的研究組相比於對照組主要複合終點(非致死性心肌梗死、卒中和血管性死亡)的發生率明顯增高,且二者存在着劑量-效應關係,即通過藥物累積攝入的鈉越多,發生主要複合終點事件的風險越高。與服用相同藥物不含鈉製劑的對照組相比,服用含鈉藥物製劑的患者發生卒中的可能性和患高血壓的風險顯著增高。服用富含鈉的製劑的患者其全因死亡率也顯著高於對照組,但沒有證據表明藥物含鈉量與心肌梗死或心力衰竭相關。


(2)我國目前大部分的醫院數據庫均是靜態數據,無法滿足動態、實時更新的需求。

目前,全國大部分的醫院所存數據均是靜態數據,無法實時、動態利用新數據,並且各醫院之間數據缺乏統一、共享機制;目前,雖然冠脈診療的數據庫已擁有一定基礎,但該類型的數據庫只能定期彙總數據,不能滿足實時快速的應用要求,數據內容分析簡單,遠遠達不到對於大數據應用處理分析方面的要求。隨着每年PCI數據內容的不斷增大,目前需要建立一個大容量、數據結構統一、數據能夠實現動態更新的PCI大數據庫,一個面向全國的集採集、存儲、管理、分析及服務於一體的大型心血管數據平臺與系統,實現數量與實時的雙向需求。


(3)我國在心血管數據管理與分析方面比較薄弱,存在很大的差距。

我國已擁有海量的有關冠脈診療的臨牀數據,數據的管理與統計分析已具備一定的基礎,但運用大數據技術進行冠脈數據挖掘與利用的水平還比較薄弱。大數據技術在銀行金融和零售服務等行業已得到成功的運用,其技術已相對成熟,將該技術應用到冠脈數據的分析與挖掘,可促進PCI技術的發展與進步,造福廣大醫生與患者。


(4)針對國內現狀制定符合我國國情、患情和醫情的PCI全週期數據採集與分析系統

針對中國老百姓及心血管醫生對高水平數據研究服務的迫切需求,本項目將對海量心血管疾病PCI數據進行採集、存儲、分析,得出有價值的信息,達到對流行疾病的預測及心血管疾病的預防作用,幫助醫生及企業制定終端解決方案,提供實時查詢檢索、在線諮詢會診、數據管理下載平臺等服務。


1.1.1數據採集

數據源所涉及的對象包括醫療機構、區域公共衛生機構,醫療機構的HIS、LIS、PACS、CIS以及便攜設備數據上傳系統等數據構成總體架構最基本數據源,數據源通過醫療機構、區域公共衛生機構等的前置機進行採集,再通過前置機內置路由網關傳輸到數據平臺,數據源層完成了各個分散系統的數據採集及傳輸。

數據存儲層則基於並行數據庫系統以及Hadoop發行版及標準數據庫實現。用來存儲從每個醫療數據源收集來的海量結構化和非結構化數據,數據處理層對數據進行處理,其處理內容包含:數據清洗、數據校驗、數據轉換。處理對象包含標準數據及非標準數據,處理的數據結構包括非結構化數據、半結構化數據及結構化數據(如非結構化數據的簡單分析--過濾和統計、基於計算模型進行結構化數據和非結構化數據的統一關聯和統計處理、複雜的分析和挖掘以及複雜問題的近似模糊求解等操作)。被處理的數據最終轉化成符合醫療衛生信息化標準的衛生綜合數據,標準數經過ETL後存入醫療中心數據倉庫,爲大數據應用做數據準備。

1.1.2數據處理

針對醫療行業大數據應用特點,採用多項創新的結構化與非結構化數據一體化處理、並行處理、SQL/MapReduce統一執行引擎、分佈式容錯及自動故障處理、複雜數據類型關聯分析、多IP通路負載均衡、處理任務斷點執行、動態擴展等技術,從服務器、網絡、操作系統到軟件層逐層優化,保證系統具有高性能、高可靠、易擴展、易使用等特點。

分別爲不同類型的數據集制定統一的元數據描述框架,規範變量名稱與結構,並建立主索引。利用面向大數據的Map Reduce算法等實現數據的分佈式處理。針對文本型數據,採用基於機器學習的自然語言處理技術、一體化醫學語言系統(UMLS)等醫學術語標準、語義網、數據關聯技術將異構的非結構化PCI電子病歷、圖形影像、臨牀檢驗等核心數據結構化,並進行語義整合。針對數值型數據,採用散點圖、頻率分佈、列聯表等識別和處理異常值、邏輯上不一致的值,消除噪聲;推導計算缺失值數據,消除重複記錄,並根據分析需要將數據拆分、轉換類型、歸一化等。經過抽取、轉換、加載(ETL)後的數據將分門別類存儲到數據集市。

通過逐步迴歸、關聯規則挖掘、相關分析、決策樹歸納法等方法進行特徵選擇,通過迴歸、對數線性模型、主成分分析、聚類分析等模型構建將一羣變量變成一個變量,從而消減數據塊,減少數據挖掘時要考慮的特徵數。採用聯繫分析處理(OLAP)技術、面向屬性的歸納方法等總結數據,實現對數據上卷下鑽,滿足不同粒度的分析挖掘需求,爲數據深度分析挖掘和可視化展示奠定基礎。

通過衆包(crowdsourcing)的方式開展大規模創意協作,收集用戶創意和反饋數據。利用Web2.0技術開設虛擬實驗室,爲用戶提供在線工具幫助他們參與到心血管疾病診療器械的設計中。通過廣大用戶的參與,拓展專業研發人員的思維。通過自然語言處理、文本挖掘技術分析用戶創意與觀點,再結合使用效果監測數據,利用遺傳算法改良心血管疾病診療器械設計,使其以更低的成本具有更高的精度,更契合用戶的需求。

1.1.3數據分析

心血管疾病診斷分析:綜合採用貝葉斯原理、關聯規則、支持向量機、聚類分析、遺傳算法、人工神經網絡、迴歸分析等算法挖掘心血管疾病與症狀之間的關係,優選診斷試驗,預測症狀發生時可能發生的最少疾病集合,並通過決策樹、流程圖、規則推理等方法構建心血管疾病診斷知識庫,爲心血管疾病預警、輔助早期診斷、診斷指南制定等提供大數據依據。

心血管疾病治療分析:比較分析不同醫院的各種心血管疾病診療規範及治療結果,綜合採用生存分析、迴歸分析、決策樹、遺傳算法、馬爾科夫模型等多種預測模型分析不同療法後心血管病人的生存時間及影響因素,對比分析不同療法、不同器械的適應證及療效,爲我國心血管疾病治療方案選擇、治療規範制定、醫療器械改進提供依據。

決策支持模型研究:充分利用區域平臺採集的大量醫療和衛生數據,採用先進的BI信息分析、挖掘、視圖展示等技術,進行數據多維分析和挖掘,趨勢、預測分析和規劃,爲各級政府部門的科學決策提供及時、準確、全面的信息支撐,同時提高對深化醫療衛生體制改革中各項任務實施情況的動態監測和宏觀的調控能力;

流數據實時監管:改變以往人工統計報表和人工填報評估系統來監管和考覈的方式,幫助政府衛生主管部門更科學地、更有效地實施規劃、執行、監管等管理職能,對醫療機構進行實時和動態的監管;

醫療信息服務:爲醫療科研和其他機構提供醫療衛生方面的數據分析、挖掘和信息共享服務。

自動報表生成:報表數據統計查詢及時、快速,具備豐富的可視化表現形式(表,Dashborad , 儀表盤,駕駛艙,地圖GIS),多維分析,可以跨系統異構;

數據可視化:採用商務智能(BI)等技術,以統計圖、表、儀表盤、駕駛艙、地圖GIS、三維圖等展示重要分析結果,並定製心血管疾病診斷報告、醫院運營報告、醫保運行報告、藥品成本效益報告等。通過應用系統,提供給使用者直觀展示。

高性能數據分析:處理大批量數據不延遲,數據庫查詢快,對業務系統無影響,不會影響其他系統的使用或者癱瘓;支持多維數據結構,具有大量數據進行分佈式處理功能,同時系統能自動升級,異構跨平臺。

1.1.4數據應用

數據應用層爲大數據應用平臺提供類型豐富的訪問接口及方案服務與平臺服務,包括Search API、Pig、Hive QL以及專爲用戶設計的SJDBC(類JDBC)和UDF(用戶自定義函數)接口,方便用戶的使用。可以通過各種API開發接口搭建面向於所有的用戶(醫院、專家、醫生、患者),區別於一般的醫療行業平臺,其容量更大,通過後臺可以把任何想讓客戶及公衆知道的內容放入平臺之中。

在此項目基礎上,本項目可持續開展的後續研究內容:未來幾年內將實現跨越式的產業戰略升級,移動醫療將作爲樂普公司重點發展方向,通過研究開發的可穿戴醫療設備如E-IVD、E-Holter等採集到更加多樣、全面的醫療數據,豐富、擴充數據庫;在應用層可服務於企業終端解決方案及遠程病患臨牀解決方案的制定以及血管機器人遠程治療平臺的建設,爲偏遠地區缺乏優秀醫療資源的醫院提供優質化服務。

1.1.5 心血管病流行病學現況分析

採集來源於各個醫療機構的患者電子病歷、居民健康檔案信息,收集整理心血管疾病臨牀數據、患者基本信息,構建疾病監測數據倉庫。採用聯機分析處理、數據挖掘技術,利用流行病學的方法對數據進行統計分析。實現疾病數據實時採集,進行疾病危險因素分析、疾病“三間”分佈分析、疾病聚類關聯分析、實驗室數據分析等,對疾病流行特徵和總體狀況進行科學分析和評估。對不同時間、不同地區、不同疾病分期,不同人羣的發病情況進行統計分析,形成圖表展示;建立預測分析模型,進一步探索疾病分佈演化規律,確定危險因素,並對疾病流行趨勢進行預測,爲決策者實現疾病監測、制定衛生政策提供科學支持。


(未完待續)

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章