《A comprehensive study of named entity recognition in Chinese clinical text》——筆記

該文章與哈工大的《中文電子病歷命名實體識別研究_曲春燕》的工作有些相似,屆時對比閱讀!

ABSTRACT

Objective

The goal of this study was to systematically investigate features and machine learning algorithms for NER in Chinese clinical text.

Materials and methods

來自協和醫院的400份入院記錄和400份出院小結,抽取四種實體,clinical problems, procedures, laboratory test, and medications.

We investigated the effects of different types of feature including bag-of-characters, word segmentation, part-of-speech, and section information, and different machine learning algorithms including conditional random fields (CRF), support vector machines (SVM), maximum entropy (ME), and structural SVM (SSVM) on the Chinese clinical NER task.

Results

大多數特徵對於NER有益,雖然提升有限。特徵方面,字段和段信息的組合表現最好。CRF和SSVM優於SVM和ME,其中SSVM表現最好。

INTRODUCTION

EHR數據的迅速發展以及NER任務的必要性,另外是最早的關於在中文病歷NER上ML算法和特徵的研究。

BACKGROUND

因爲標註好的病歷語料庫,基於ML的NER方法開始流行。比如i2b2 2009和i2b2 2010。NER問題變成了一個爲每個單詞賦予標籤的分類問題。
特徵和ML算法。
特徵:
In previous clinical NER studies,2 different types of feature, including syntactic (eg, part-of-speech tags) and semantic (eg, semantic classes in UMLS (Unified Medical Language System)) information of context words, as well as word representation information generated from unsupervised analysis, have been investigated, and all of them conferred beneficial improvement on NER performance.
算法:
SVM、CRF、SSVM(結合了前兩者,效果略優)
中文方面;Wang等應用CRF,SVM和最大熵去識別症狀和疾病在古漢語醫療記錄,CRF效果最優。
標註了大量的中文入院記錄的標註語料集,然後評價了不同特徵和不同算法。

METHODS

Datasets and annotation

400份入院小結和400份出院記錄,兩位醫生(一人標註40份另外一人標註360份)標註四類實體problems,tests,procedures, and medications。標註規範與2010 i2b2 NLP的類似,主要在於把treatment分爲了procedures和medications。

ML-based NER

使用BIO標籤將NER轉變爲分類問題,四個實體共九個標籤。

Features

中英文的主要不同在於中文沒有空格。如下表所示共四類特徵。
Features used for Chinese medical entity recognition

  1. bag-of-characters:單個漢字作爲特徵。
  2. bag-of-words:兩種方法,一是通過the Stanford Word Segmenter,但對病歷文本效果不好;二是通過詞典搜索方式,在the New dictionary of medicine and drugs 找到匹配詞條。
  3. POS tags:使用the Stanford Word Segmenter 也可得到POS tags。
  4. Section information:根據小結人工定義了35個不同的section headers(比如:history of illness)。

ML algorithms

四種:SVM,SSVM,CRF,ME。
SVM:In our experiments, we used liblinear (http://www.csie.ntu.edu.tw/~cjlin/liblinear/) as an implementation
of SVM。
SSVM:In our experiments,we used SVMhmm (http://www.cs.cornell.edu/people/tj/svm_light/svm_hmm.html) as an implement of SSVM。
ME:In ourexperiments, we used maxent (http://homepages.inf.ed.ac.uk/lzhang10/maxent_toolkit.html) as an implement of ME, and setL-BFGS as its training algorithm.
CRF:In our experiments,we used CRF++ (http://crfpp.googlecode.com/svn/trunk/doc/index.html) as an implementation of CRF.

Experiments and evaluation

三分之二用作訓練,三分之一用作測試。訓練集用十重交叉驗證優化參數,在獨立的測試集上測試、報告性能。先使用CRF確定效果最好的特徵組合。然後在該特徵組合上,對算法進行比較。開發了基於2010 i2b2 NLP的評估程序的程序通過兩種方法(exact match & inexact match)進行評估。

RESULTS

語料描述
另40份病歷用作Kappa檢驗證實標註結果有效。
不同特徵組的結果
兩種分詞方法都稍稍的提高了NER的表現,但是詞典查找的方法表現更佳。詞性標籤並不能提升表現。節信息(section information)能夠稍稍的提高表現。所以使用字特徵,基於詞典查找的詞特徵,以及節信息時表現最好。另外我們注意到入院小結比出院小結的表現更好。
不同算法的對比
序列化標註的算法(如CRF&SSVM)表現比分類算法(如ME&SVM)要好,表現最好的是SSVM。

DISCUSSION

In this study, we investigated ML-based approaches for NER in Chinese clinical text. We manually created annotated datasets of 400 admission notes and 400 discharge summaries in Chinese, and systematically evaluated the contributions of different types of features and ML algorithms for NER in Chinese clinical text. Our results showed that word segmentation information based on a Chinese medical dictionary and section information was beneficial to NER tasks in Chinese clinical text. When the same features were used, we also demonstrated that SSVM achieved the best performance of the four different ML algorithms. This was consistent with a previous study on NER in English clinical text.11 12 These findings will all be useful for future Chinese clinical NLP research.
同樣的算法英文電子病歷NER效果比中文差:英文病歷中實體更加稀疏,有着大量的低頻出現的實體。
精準匹配和不精準匹配的差別,中文病歷比英文病歷更小:中文病歷中實體的邊界更容易確定。
分詞中斯坦福的分詞工具不如詞典查找的分詞方法:中文電子病歷中的分詞需考慮專業知識。
序列化標註算法優於分類算法:序列化標註算法考慮了相鄰標籤的關係。但是需要注意SSVM略微優於CRF。
識別中出現了部分問題,如“肝功能異常急性加重”只識別出“肝功能異常”:考慮句子中的語法結構,但是這方面的研究比較少,有待探索。

發佈了36 篇原創文章 · 獲贊 4 · 訪問量 3萬+
發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章