《Joint segmentation and NER using dual decomposition in Chinese discharge summaires》——筆記

ABSTRACT

三方面的工作:
- 標註一箇中文出院小結的標準語料集
- 在該數據集上進行,分詞和命名實體識別
- 建立一個分詞和命名實體識別的聯合模型
提出了一個聯合模型,使用雙重分解來執行兩個任務,設計了三組特徵來展示聯合模型與獨立模型,增量模型和在組合標籤上訓練的聯合模型相比的優點。
利用336份出院小結共71 355個字。
對於分詞和NER,聯合模型是高效且有作用的。

INTRODUCTION

英文電子病歷相關工作好,中文弱。
因中文字間沒有空格,所以先分詞後NER。四類實體,problems and symptoms,medical tests and assays,medications,treatments。
分詞和NRE之間很相關。實體必須包含完整的詞,且允許任意數量的詞。
問題:
1、單詞超出詞典外是分詞的一個挑戰。當前的中文詞典找不到大量的醫學術語。
2、詞的模糊性。比如無畏|寒和無|畏寒。
雙分解的聯合模型更簡單,運行時間更短,效果更好。
數據集:336份中文出院小結,手工標註後,8881 medical problems, 1188 treatments, 782 medications, 1299 tests, 71355 個詞。

RELATED WORK

中文分詞主要由三個問題,語言資源的建造,分詞歧義,超綱詞彙。對於NER,大多數使用分詞和詞性信息作爲CRF的特徵。
Kruengkrai提出an error-driven word-character 混合聯合模型,用於中文分詞和詞性標註。Hatori 提出POS標註和依賴解析的聯合模型。
。。。。
結論,聯合模型更好。

MATERIALS AND ANNOTATION

Dataset

從醫院的不同部門中隨機抽出336個出院小結。 We list some statistics, including the average number of characters, sentences, entities, etc, in supplementary material A, tables S1 and S2 (available online only). The annotation guidelines and the annotated corpus are available online at http://research.microsoft.com/en-us/projects/ehuatuo/.(說好的資料呢?)

Annotation guidelines

在附件中,給出了詳細的標註規範。

Annotation flow

兩個醫生來獨立標註,第三個醫生進行判別。
大多數不一致來自醫生處理詞的邊界。
然後進行第二輪註釋,三個有計算機語言學背景的人。

Inter-annotator agreement

使用Kappa統計來評估標註一致性。
醫生間的一致性低,而計算機從業者的一致性高。

METHODS

four methods: independent model, incremental model, joint model trained on combined labels (joint_CRF) and joint model using dual decomposition(joint_DD)
這裏寫圖片描述

Conditional random fields

Baseline methods: independent models and incremental models

基線方法把分詞和NER看做兩個獨立的任務。兩個都可以看做序列化標註問題。需要獨立的訓練集進行訓練。
明顯這種忽略了任務相關性的方法性能不會很好,爲此我們開發了增量模型,即NER的分詞的標記結果被再用來訓練模型以得到更好的效果。
增量模型的缺點:1)由獨立CRF模型產生的分詞和NER結果可能不準確,因此用來訓練可能使錯誤傳播;2)由於CRF算法的性質,增量模型不能捕獲分詞和NER之間的複雜相關性。

A joint model using a CRF model

發佈了36 篇原創文章 · 獲贊 4 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章