哪吒bert論文的講解以及命名實體識別代碼NEZHA:NEURAL CONTEXTUALLZED REPRESENTATION FOR CHINESE LANGUAGE UNDERSTANDING

原創

2020-06-16 01:57

摘要：

語訓練模型由於能夠獲取深度上下文信息在多個自然語言理解獲得巨大成功，這種模型通過預訓練大量無標籤語料得到。當前版本的NEZHA是基於BERT模型經過一系列改進驗證得到的模型，其中改進的包括函數式位置編碼Functional Relative Positional Encoding，全詞mask策略，Whole Word Masking strategy，Mixed Precision Training，LAMB Optimizer。

引言

ERNIE-Baidu 利用e MLM task更加具有挑戰性，主要掩蓋了一些實體entities和一些短語，這些短語與實體可能包含多個字符或者詞語。BERT-WWM 採用了相似的策略，如果屬於同一個詞彙則全部mask，最近公佈的ERNIE-Baidu 2.0合併了詞彙與文檔的關係預測以及句子重排序任務。（所以值得關注百度的預訓練模型在中文各種任務的效果）。我們在模型中採用Functional Relative Positional Encoding函數式相對位置編碼，在BERT模型中主要採用的是絕對位置編碼，把位置信息編碼加入到word embedded的信息中，transformer是這樣的策略。主要存在兩種經典的位置信息編碼策略，（1）函數式位置編碼信息，利於預先定義好的函數對位置進行信息編碼，（2）參數式位置編碼信息，把位置編碼向量作爲參數參與訓練。【11】提出了參數相對位置編碼信息，把位置信息參與到self-attention結構中。Transformer-XL [12] and XLNet [6] 用a sinusoid 編碼矩陣和兩個可訓練偏執項作爲位置編碼相對位置。在這個報告中我們採用預定義函數式相對位置編碼參與到self-attention中，並且沒有可訓練參數。

模型預訓練

2.1BERT Model & Positional Encoding

這一張主要講解了transformer的核心self-attention以及位置編碼，我們當時再複習一遍。BERT是transformer的迭代編碼器。每一個transformer編碼是多頭self-attention。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

哪吒bert論文的講解以及命名實體識別代碼NEZHA:NEURAL CONTEXTUALLZED REPRESENTATION FOR CHINESE LANGUAGE UNDERSTANDING

摘要：

引言

模型預訓練

2.1BERT Model & Positional Encoding

10分鐘搞定Mysql主從部署配置

如何使用 JS 判斷用戶是否處於活躍狀態

「Pygors跨平臺GUI」2：安裝MinGW-w64、MSYS2還是WSL2

[轉帖]

python列出centos7內存使用前50的進程信息

「Pygors跨平臺GUI」1：Pygors跨平臺GUI應用研究

一鍵自動化博客發佈工具,用過的人都說好(掘金篇)

lightdb數據庫超時相關控制參數

lightdb秒級增加列和刪除列（not null帶默認值）

Java ThreadPoolShutdown

基於中文哪吒的FLAT的命名實體識別實現與探討

pycharm鏈接帶cuda的docker，出現在pycharm訓練時不加載cuda問題，出現

Al-bert利用自己訓練數據集預訓練以及測試LCQMC語義相似度測試（二）

常規筆記

ubuntu apt-get update 出現 0% [Working] 停止更新狀態

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結