一隻小狐狸帶你解鎖煉丹術&NLP祕籍
作者:孫樹兵
學校:河北科技大學
方向:QA/NLU/信息抽取
編輯:小軼
背景
文本糾錯(Spelling Error Correction)技術常用於文本的預處理階段。在搜索引擎、輸入法和 OCR 中有着廣泛的應用。2020年的文本糾錯自然也離不開 BERT 的表演。但原生的 BERT 在一些NLP任務如error detection、NER中表現欠佳,說明預訓練階段的學習目標中對相關模式的捕獲非常有限,需要根據任務進行一定改造。在文本糾錯任務中亦是如此。
此前文本糾錯的SOTA方法採用了基於 Bert 的 seq2seq 結構,直接生成糾錯後的字符序列。但是經觀察發現,這樣的方法總是傾向於不進行任何糾錯,錯誤檢測能力很低。一種可能的解釋是 Bert 在預訓練時只掩碼了15%的字符,所以並不能夠充分學習所有字符的上下文。
爲了提高錯誤檢測能力,本文在SOTA方法的基礎上又添加了一個錯誤檢測網絡。分錯誤檢測和糾正兩步走。先檢測每一個字的錯誤概率,然後根據檢測結果將可能的錯別字 soft-mask,其實就是錯誤概率:( 滑動查看完整公式 )
再輸給基於Bert的修正網絡。這樣就強制修正網絡學習了錯別字的上下文。下面將詳細爲大家介紹模型的實現細節。
論文鏈接:https://arxiv.org/pdf/2005.07421.pdf
Arxiv訪問慢的小夥伴也可以在訂閱號後臺回覆關鍵詞【0610】下載論文PDF。
模型結構
本文提出的 Soft-Masked Bert 模型可分爲三個部分:
檢測網絡採用 Bi-GRU 預測字符在每個位置出現錯誤的概率。
用錯誤概率對 input embedding 做 soft-mask。soft-mask 是傳統 hard-mask 的延伸。當錯誤概率等於1時,前者退化爲後者。
修正網絡爲原文中每個位置挑選替換字。實現過程與單純使用BERT的SOTA方法相似。
檢測網絡
檢測網絡是一個二分類的序列標註模型。模型的輸入是character embedding序列。其中 表示字符 的 character embedding(即word embedding, position embedding 和 segment embedding 的總和)。輸出是標籤序列 。 爲第 i 個字符的標籤,等於 1 表示字符錯誤,0 表示正確。我們記 爲 等於 1 的概率。
本文采用雙向 GRU(Bi-GRU) 實現檢測網絡。字符錯誤概率 可以定義爲
其中, 表示檢測網絡給出的條件概率, 是 sigmoid 函數, 爲 Bi-GRU 的隱狀態, 和 是參數。隱狀態可以定義爲:
Soft-Mask
soft-masked embedding 爲 input embedding 和 mask embedding 的加權和。權重由該字符的錯誤概率得到。第i個字符的 soft-masked embedding 可形式化地定義爲:
是 input embedding, 是 mask embedding。如果錯誤概率很高,則 接近 。
修正網絡
修正網絡是一個基於 Bert 的多類別序列標註模型。輸入爲 soft-masked embedding 序列 ,輸出爲替換字符序列 。
BERT 由12個相同的 block 組成。每個 block 包含一次 multi-head self-attention 操作和一個前饋神經網絡。我們將BERT最後一層的隱狀態序列記爲 。則給定待糾錯的字符序列 ,字符 被替換爲候選字符表中第 個字符的條件概率爲
其中, 和 爲參數; 是 和 Bert 最後一層隱狀態 通過殘差連接後得到的,即 。校正網絡的最後一層採用 softmax 函數,從候選字符列表中選擇概率最大的字符作爲字符作爲輸出。
訓練過程
Soft-masked BERT 的訓練是 Seq2seq 進行的。訓練目標包括錯誤檢測和錯誤糾正兩部分,其目標函數分別爲:
總目標函數爲兩者的線性組合:。其中。
實驗結果
在 SIGHAN 和 News Title 兩個數據集上進行了實驗。本文的 Soft-Masked BERT方法在兩個數據集上基本都取得了最好結果。
總結
本文提出了一種新的神經網絡結構Soft-masked Bert,實現中文文本糾錯。該結構包含錯誤檢測和修正兩個部分。通過Soft-mask技術將檢測結果編碼到修正網絡。實驗結果表明該方法的性能優於單純使用Bert的基線模型。並且這一方法具有較強的普適性,也可用於其他語言的糾錯任務。
本文收錄於原創專輯:《賣萌屋@自然語言處理》
重磅驚喜:賣萌屋小可愛們苦心經營的 自然語言處理討論羣 成立三羣啦!掃描下方二維碼,後臺回覆「入羣」即可加入。衆多頂會審稿人、大廠研究員、知乎大V以及美麗小姐姐(劃掉????♀️)等你來撩噢~(手慢無
可
能
喜
歡
夕小瑤的賣萌屋
關注&星標小夕,帶你解鎖AI祕籍
訂閱號主頁下方「撩一下」有驚喜哦