摘要
本文首先對電子病歷去隱私,制定了隱私信息標註規範,使用條件隨機場完成了隱私信息識別模型的構建。
使用992份經去隱私的已標註中文電子病歷,首先實現了基於特徵的關係抽取方法,通過抽取一些基本特徵以及中文電子病歷中一些特有的特徵,訓練支持向量機(SVM)單分類器並分析了實驗結果。然後針對單分類器中關係大類的誤分類情況,將單分類器分解爲多個分類器用於處理指定關係大類下的樣本。
基於樹核函數的方法:將樣本表示爲句法分析書並由計算兩棵樹中相同子集樹的數量的方式得到樣本間相似度,利用這樣的子集樹核函數訓練SVM多分類器。
本文在擴展基於特徵的方法與基於樹函數的方法的特徵空間的基礎上,對兩個方法相應的核函數進行了結合,得到特徵與樹核函數結合的方法,並使用組合的後的方法完成了關係抽取,效果最佳。
第 1 章 緒論
1.1 課題背景及研究的目的和意義
1.1.1 課題背景
1.1.2 研究的目的和意義
1.2 國內外研究現狀
1.2.1 國外研究現狀
在開放域中進行關係抽取,難點在於語料內容往往沒有固定的結構。
在關係類別方面,開放域中不同人物往往定義的關係類別也各不相同。主要分爲基於特徵的關係抽取方法和基於核函數的關係抽取方法。
在醫療領域,i2b2 2010評測任務中,Bruijn實現了基於SVM的關係抽取方法,他們訓練了多個分類器並利用不同分類器處理不同的關係類別,以此降低類別間的錯誤來提高關係識別的效果。Rink同樣使用SVM分類器,並通過引入外部字典和抽取豐富的特徵提升了關係識別精度。Kim等發現句法樹中包含了豐富的可用於關係識別的語義特徵,他們使用了基於樹核函數的方法進行關係抽取。
1.2.2 國內研究現狀
目前中文上的關係抽取主要圍繞開放域展開,在有監督的方法中SVM是被應用最多的分類器。中文的關係抽取在開放領域已經有了一定的成果,與國外相比,國內在電子病歷方面的推進的步伐比較緩慢,主要是受到資源的限制。
1.3 本文研究的主要內容
(1)首先根據國內外在關係抽取上的研究,制定用於關係抽取的基本特徵集,並根據中文電子病歷的一些文本特點以及關係的標註規範對特徵集合進行擴展,得到基於特徵的關係抽取方法,並將模型拆分得到用於處理不同關係類別的多分類器,來減少類別間的誤分類;(2)除了從基於特徵的角度外,我們從中文電子病歷的文本結構特點方面考慮,研究基於樹核函數的方法識別中文電子病歷中的關係。
最後進行整合。
1.4 本文的結構安排
第 2 章 中文電子病歷實體關係抽取
2.1 引言
本章首先介紹中文電子病歷去隱私的流程,然後簡單描述了關係抽取任務,介紹了數據集。
2.2 電子病歷去隱私(這個用做麼?)
2.3 關係抽取語料介紹
500份出院小結,492份首次病程記錄。
共8個關係大類,分別是疾病與治療見得關係,疾病與檢查見得關係,疾病與自訴症狀間的關係,疾病與異常檢查結果間的關係,治療與自訴症狀間的關係,治療與異常檢查結果間的關係,檢查與自訴症狀間的關係,檢查與異常檢查結果間的關係。
2.4 任務描述
對所需要識別的關係類型作出如下描述。
2.5 關係抽取方法介紹
- 基於模式匹配的方法。
- DIPRE一種半監督的關係抽取方法。
- 有監督的關係抽取——基於特徵/核函數的方法。
2.6 標註形式與評價方法
參考I2B2 2010的標註規範,引入了實體組的概念
第 3 章 基於特徵的中文電子病歷實體關係抽取
3.1 引言
此方法通過抽取實體對的詞彙、語義和句法等方面的特徵,將實體對在語句中的上下文表示成爲特徵向量,將關係類別作爲分類標籤,把實體關係抽取問題轉化爲分類問題,使用有監督的機器學習算法在特徵向量集合上訓練分類器,並使用此分類器對未標註的向量集合進行關係分類。
基於特徵的方法關鍵在於根據數據的特點選取不同的特徵集合。詞彙,句法和語義三種類型的特徵在關係抽取任務中比較常用。