Chinese NER Using Lattice LSTM [ACL 2018] 閱讀筆記

論文題目：Chinese NER Using Lattice LSTM
論文出處：ACL 2018
論文地址： https://arxiv.org/abs/1805.02023
源碼： https://github.com/jiesutd/LatticeLSTM

概要

論文提出了一種適用於中文NER任務的Lattice-Lstm結構。

主要思想，綜合利用字符級和單詞級信息。如上圖所示。在每一個字符節點，同時利用字符級輸出以及所有在詞典中以該字符結尾的詞語級輸出。

模型結構

整體結構如上圖所示。圖中爲了表達簡潔，只繪製了單方向的LSTM。
字符級信息處理方式使用標準的LSTM結構。其中 $x^{c}_j$ 爲對應字符的字符嵌入。lattice lstm 與一般lstm主要區別在於
$c^{c}_j$ 的計算方式。

詞語級信息處理模塊如下：

注意，與字符級信息的處理模塊主要區別是此處沒有輸出門，因爲NER任務最終輸出label只在字符級級別進行。
綜合字符級信息與詞語級信息來計算 $c^{c}_j$ 。
使用一個補充門結構計算每個詞語級信息對 $c^{c}_j$ 的貢獻。

$c^{c}_j$ 的最終計算方式如下：

文章提出一種歸一化算法求出當前字符 Cell 各種輸入的權重，類似 Softmax 函數，如上圖公式所示。分母爲句子中以當前字符結尾的所有詞彙的權重以及當前字符輸入門，求指數後求和。

最終解碼層使用標準CRF層：

論文總結

以下僅代表個人觀點

lattice-lstm的主要思想是綜合利用字符級和詞語級信息來做NER任務。因爲單純的字符級信息缺少詞語級的知識表示，而單純的詞語級表示會導致對分詞準確度十分依賴，分詞錯誤會直接導致實體邊界劃分錯誤。
文章中提到詞語級信息是基於文本數據集進行預訓練，生成詞典及向量（類似word2vec）。使用大量特定下游任務相關領域的語料進行預訓練可能對任務效果有幫助。
實際跑了一下作者提供的開源代碼，目前有一個問題，目前代碼只支持batch_size=1.可能是由於模型中信息流需要根據不同樣本單獨處理導致的，作者在issue中說明目前未編寫批量訓練版本。模型的運行速度相對較慢。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

Chinese NER Using Lattice LSTM [ACL 2018] 閱讀筆記

概要

模型結構

論文總結

MySQL 核心模塊揭祕 | 18 期 | 鎖在內存里長什麼樣*

使用perf工具生成火焰圖

HttpSecurity 是如何組裝過濾器鏈的

數說海南——近6年海南各市縣人口簡單看

長序列中Transformers的高級注意力機制總結

WebStorm 創建 Vue 項目

大齡程序員思考

響應式界面控件DevExtreme * 更強的數據分析和可視化功能

CS224n(2019):Assignment2 參考答案

linux系統三步解決matplotlib圖片中文顯示問題

Leetcode-695.最大島嶼面積（DFS 與 BFS 解法，python3）

從零開始實現核密度估計（kernel density estimation，KDE）-python實現

linux磁盤掛載教程

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結