Chinese NER Using Lattice LSTM

  本文研究了lattice-structured LSTM模型用來做中文的NER,在character-based的序列標註的模型上改進得到的,在character-based模型中的每個character cell vector通過詞向量輸入門的控制引入以當前字符結束的在詞表中出現的所有詞的word cell vector得到新的character cell vector,用新的character cell vector得到每個字符的hidden vector來進行最終的標籤的預測,與基於字符的方法相比,本文的方法顯式的使用了詞和詞序列信息,與基於詞的方法相比lattice LSTM不存在分割錯誤的問題,Gated recurrent cells使模型能夠從句子中選取最相關的字符和詞,從而得到更好的NER效果。

lattice model

輸入爲,一個句子的字符序列和在字典D中匹配到的詞(也是輸入字符序列的子序列),D是由原始輸入的句子自動分割得到的。模型共涉及到四種vectors,分別爲input vectors, output hidden vectors, cell,vectors和gate vectors。

Character-Baseed Model

(1)輸入字符序列 

e_c 表示一個character embedding查詢表

cj 字符

xj_c 查表得到的character embedding

(2)用Bi-LSTM來對character embedding進行處理得到兩個序列,然後把相同位置的拼接起來得到hidden vector

(3)用CRF來進行標籤序列的預測解碼

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章