哪吒bert論文的講解以及命名實體識別代碼NEZHA:NEURAL CONTEXTUALLZED REPRESENTATION FOR CHINESE LANGUAGE UNDERSTANDING

  摘要:

  語訓練模型由於能夠獲取深度上下文信息在多個自然語言理解獲得巨大成功,這種模型通過預訓練大量無標籤語料得到。當前版本的NEZHA是基於BERT模型經過一系列改進驗證得到的模型,其中改進的包括函數式位置編碼Functional Relative Positional Encoding,全詞mask策略,Whole Word Masking strategy,Mixed Precision Training,LAMB Optimizer。

引言

     ERNIE-Baidu 利用e MLM task更加具有挑戰性,主要掩蓋了一些實體entities和一些短語,這些短語與實體可能包含多個字符或者詞語。BERT-WWM 採用了相似的策略,如果屬於同一個詞彙則全部mask,最近公佈的ERNIE-Baidu 2.0合併了詞彙與文檔的關係預測以及句子重排序任務。(所以值得關注百度的預訓練模型在中文各種任務的效果)。我們在模型中採用Functional Relative Positional Encoding函數式相對位置編碼,在BERT模型中主要採用的是絕對位置編碼,把位置信息編碼加入到word embedded的信息中,transformer是這樣的策略。主要存在兩種經典的位置信息編碼策略,(1)函數式位置編碼信息,利於預先定義好的函數對位置進行信息編碼,(2)參數式位置編碼信息,把位置編碼向量作爲參數參與訓練。【11】提出了參數相對位置編碼信息,把位置信息參與到self-attention結構中。Transformer-XL [12] and XLNet [6] 用a sinusoid 編碼矩陣和兩個可訓練偏執項作爲位置編碼相對位置。在這個報告中我們採用預定義函數式相對位置編碼參與到self-attention中,並且沒有可訓練參數。

模型預訓練

   2.1BERT Model & Positional Encoding

   這一張主要講解了transformer的核心self-attention以及位置編碼,我們當時再複習一遍。BERT是transformer的迭代編碼器。每一個transformer編碼是多頭self-attention。

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章