胃腸道內窺鏡檢查本體(An Ontology for Gastrointestinal Endoscopy)

摘要:胃腸道內窺鏡領域可以由出於數據編碼和數據集成目的的本體中獲益。本文介紹了一些早前嘗試基於OBO Foundry原則和已經存在的OBO Foundry本體而開發本體的結果。起初,本體僅用於表示實體和關係,而現在則隱式或硬編碼於已存在的內窺鏡報告系統的用戶界面上。本體還被映射到已存在的數據庫上以評估本體驅動查詢的可行性。長期的目標是使本體發展爲獨立於應用的胃腸道內窺鏡檢查領域的術語學和信息模型。

關鍵詞:胃腸道內窺鏡檢查,知識表示,數據集成


1 引言

胃腸道內窺鏡檢查的實踐引入了大量的結構化數據,這些數據都是由內窺鏡檢查報告中捕捉到的。爲了保證數據收集的一致性,世界內窺鏡檢查組織爲胃腸道內窺鏡檢查維護了最小標準術語(Minimal Standard Terminology,MST)。MST指定了術語的最小集合,以及編碼大部分內窺鏡檢查數據所需的數據結構。然而MST中所表示的領域知識(形式化的術語,關係和數據結構)並不是一個可計算的形式,它將獲益於本體和邏輯的分析及再組織。

另外一項胃腸道內窺鏡檢查領域重要的工作計劃是臨牀結果研究計劃(Clinical Outcomes Research Initiative,CORI)。CORI用於評價臨牀護理中內窺鏡檢查的利用和效果。爲了實現這一目標,CORI已經開發了內窺鏡檢查報告軟件和一個內窺鏡檢查報告的中心數據倉庫。該報告軟件正在國內廣泛使用,其數據倉庫每年接收到超過250,000份報告。這一數據倉庫主要用於研究目的,並用來報告一些實踐模式和臨牀結果度量。

CORI開發的內窺鏡檢查軟件起初是基於MST的內窺鏡數據表示,但是也加入了一些額外的術語和數據元素。而且它還能適當地將一些商業報告系統中生成的數據集成到CORI數據倉庫。這些努力都強調了對於建立一個共享、穩定、可計算的胃腸道內窺鏡檢查術語和信息模型並保證清晰一致的語義以促進數據集成的需要。


2 動機與計劃中的開發

生物醫學本體領域近來的發展爲更多形式化和邏輯化地表示實體和數據元素奠定了基礎。這些實體和數據元素用來表示內窺鏡檢查數據。而且,標準知識表示語言和相關推理能力的存在使得我們可以對邏輯化表示的數據和知識進行復雜的查詢。這些進步都促使我們想要嘗試在CORI項目中爲胃腸道內窺鏡檢查領域開發一個本體。

這一本體將遵照開放生物醫學本體(Open Biomedical Ontology,OBO)構造(Foundry)開發原則,並在適當的時候複用已存在的OBO本體中的實體。BFO將作爲頂級本體,其他本體(IAO,ogms,OBI等)將被用作中級實體的檢查。領域級實體將參照已存在的解剖學和病理學的本體、構型、關係等。該本體開發項目被存爲一個Google Code項目。


3 方法和預期的困難

開發將在確定當前CORI報告軟件用戶界面上硬編碼的領域級術語和數據元素後展開。這些實體將初步構成本體的主要內容。這將把領域知識與應用解耦,從而允許更有彈性的發展報告軟件的術語和信息模型,與此同時還能保持本體的和形式化的知識表示原則。然後,本體將根據來自MST的其他本體、內窺鏡檢查報告中自由文本實體和內窺鏡檢查聯盟的信息進行擴展。同時,作爲一個概念的證明,本體將被映射到已存在的CORI數據倉庫中來評估本體驅動查詢相對於傳統SQL查詢的可行性和好處。D2RQ平臺將被用於項目的該部分。

對報告軟件用戶界面和MST的簡要探索顯示了一些困難問題,如認識論VS本體論,實體VS描述,否定詞,還有其他臨牀設置中常出現的相關問題。而且,儘管我們相對狹窄地將注意力集中在胃腸道內窺鏡檢查的實踐中,可是內窺鏡檢查報告卻包括從現在到過去的病史、物理檢查、可視的內窺鏡檢查結果還有通過各種圖像技術得到的間接結果。除了這些各種類型的信息,還有反映臨牀醫生態度和判斷的認知層面上的東西,如評估、診斷、計劃的表格等。爲了充分表示信息,本體需要非常豐富的關係集合,包括拓撲、時間、模型關係等。

不過下面描述的主要用例都可以通過限制我們初始開發目標爲一個is_a層次和高質量的拓撲關係基本集來實現。初始版本也將根據OBO Foundry本體開發原則,僅表示內窺鏡的結果、它們的解剖學位置以及臨牀描述。


4 主要用例

本體將主要用作術語的接口,用來支持數據准入並保證內窺鏡檢查報告編碼的一致性。本體也被用來探索本體驅動的數據獲取所得到的值,它是通過對當前的CORI數據集執行本體驅動的查詢來實現的。這些初始用例可以被滿足,只要限制實體和關係的集合。其餘的領域知識則在有需要時再加入。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章