《利用條件隨機場實現中文病歷文本中時間關係的自動提取》——閱讀筆記

摘要

提出一種基於CRF的時間關係提取算法。以經過醫學問題和時間信息語義標註的病歷爲訓練內容,時間關係結果標註採用以醫學問題爲中心的模式。以63份實際病歷作爲實驗文本。

引言

時間關係非常重要,如,哥倫比亞大學Zhou等開發的TimeText系統。中文面向醫學臨牀文本,服務於醫療信息化的研究仍處空白。

1 條件隨機場

CRF 避免了隱馬爾可夫模型(hidden Markov model,HMM)的獨立性假設,解決了最大熵模型(MaximumEntropy,ME)所帶來的標記偏見問題,不像ME 在每一節點都要進行歸一化,而是對所有特徵進行全局歸一化,可以求得全局的最優值,因此在自然語言處理領域的衆多序列化標註任務中得到廣泛應用。
1. Zhao Hai,Huang Changning,Li Mu. An improved Chinese word segmentation system with conditional random field[A]. In: Dale R,eds. Proceedings of the Fifth SIGHAN Workshop on Chinese Language Processing [C ]. Sydney: 2006 Association for Computational Linguistics,2006. 162 - 165.
2. Peng Fuchun,McCallum A. Information extraction from research papers using conditional random fields[J]. Information Processing & Management,2006,42(4): 963 - 979.

2 中文病歷文本中的時間關係提取

定義醫學問題時間屬性標籤。
處理流程:首先利用各種醫學語言處理技術實現對於病歷文本中醫學問題和時間信息的自動語義標註,然後以醫學問題爲中心的模式對其進行手工時間關係標註,形成CRF訓練預料,最後根據訓練預料中時間與問題之間的規律,設計CRF學習模板,使用學習模板通過訓練獲得CRF模型,基於生成的CRF模型可以實現對時間關係的自動提取。

2.1 語義標註

對於醫學問題的予以標註依賴於簡歷的一個具有語義註釋的醫學術語庫(包含醫學問題和描述問題變化的詞語),採用反向最大匹配法來實現。採用正則表達式匹配~

2.2 語料準備

採用crf++。
手工按照表1所示類型爲訓練數據標註正確的時間關係,最終形成的訓練語料第一列數據是原始文本分解後的token,第二列是相應的予以標註,第三列是用於crf++學習的時間關係標註正確結果。總共63個病歷文本,319個病歷語句。

2.3 模板準備

基於對樣本標註模式的窗口跨度等的統計,一維原子模板選取距當前標記距離爲4的上下文標記,多維複合模板爲原子模板的組合。高維特徵能把握更多的長距離依賴關係,但也需要更大的訓練開銷,並帶來更嚴重的數據稀疏問題,本文最高維設定爲4維。

3 實驗以及結果的討論

有一定的應用潛力,準確率在80%以上。
某個特定模板是否引起過擬合現象不僅在於訓練預料的特點,亦和模板文件中個模板之間的關係相關。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章