你的模型夠可靠麼？關鍵詞掩碼的模型可靠性提升方法探索

原創

osc_kyehmyzk

2021-01-30 10:43

©PaperWeekly 原創 · 作者｜張琨

學校｜中國科學技術大學博士生

研究方向｜自然語言處理

論文標題：

MASKER: Masked Keyword Regularization for Reliable Text Classification

論文鏈接：

https://arxiv.org/abs/2012.09392

代碼鏈接：

https://github.com/alinlab/MASKER

動機

文本分類是自然語言處理中一個基礎但應用廣泛的任務，而伴隨着預訓練模型的被提出，模型在文本分類任務上的效果也在不斷被提升。雖然現有的預訓練模型確實對文本分類的提升做出了突出貢獻，但是利用文本分類模型進行微調存在一個可靠性問題。

模型會更過的依賴那些關鍵詞，從而忽略了周圍的上下文信息，模型會更過的依賴那些關鍵詞，從而忽略了周圍的上下文信息，試集中的數據分佈是不同的，可能在訓練集中某些關鍵詞和某一類緊密關聯，但在測試集中不是這樣的，那麼過渡依賴關鍵詞的話，模型就會做出錯誤的判斷。

除此之外，還有一個跨領域泛化的問題，在源域有效的關鍵詞可能在目標域就不存在，這樣模型在目標域的泛化就存在很大問題了。

比如下圖，如果原域中 apple 指的就是蘋果公司，那麼當出現 OOD 的 apple 這個詞的時候，模型應該能判斷出來這已經不是在相同的域了，這時的 apple 就可能不再是關鍵詞了。爲了解決這個問題，本文在預訓練模型的基礎上提出了一個改進方案，主要用於增加模型的可靠性，尤其是在微調階段的可靠性。

方法

在這裏主要分爲兩個部分，關鍵詞的選擇和通過掩碼關鍵詞的約束。

2.1 關鍵詞選擇

已經有一些工作，通過認真選擇數據或者設計特定的結構，從而減輕或消除數據中的這種有偏（單靠一些關鍵詞判斷正確的類別）對模型的影響。但這些方法都需要有偏的監督信號，因此存在一定的侷限性，本文就選擇使用一種非監督的方法來選擇關鍵詞，思路很簡單：

基於頻率：即通過統計整個文檔中的詞頻實現對關鍵詞的選擇，這裏使用的是 TF-IDF，主要通過以下公式計算：

需要說明的是該方法是不依賴於模型的，針對任何模型都是使用的，同時本文選擇的 TF-IDF 是不依賴類別的，是直接選擇出整個數據中的關鍵詞。優點是簡單易行，缺點是無法反應詞對最終結果的貢獻。

基於注意力得分：這部分相對來說就要複雜一些了，即使用模型中的注意力得分對數據中的詞進行選擇，這裏爲了體現詞對結果的影響使用的就是原始的 loss 來訓練模型，然後找到模型更關注那些關鍵詞，具體選擇的注意力分數計算如下：

通過這兩種方式得到具體的關鍵詞之後，作者又提出了兩種利用掩碼關鍵詞進行約束的任務。

2.2 掩碼關鍵詞約束

掩碼關鍵詞的重構：

在該任務中，作者首先按照一定概率選擇一些關鍵詞，將這些關鍵詞進行掩碼，然後將遮蓋住關鍵詞的文檔送給模型，模型需要對被遮蓋的內容進行重構，該過程可以由下圖表示：

對應的損失可以由以下公式表示：

作者也選擇了利用遮蓋後的文檔直接進行分類，但結果是非常差的，通過這樣的實驗證明了對遮蓋內容的重構是必須的。

掩碼之後的熵正則：

這個任務主要是對上下文內容進行遮蓋，具體可以理解爲：正常情況下，我們希望通過讓模型更多的關注上下文，從而真正理解語義，而不是靠一些簡單的關鍵詞進行分類預測。

因此模型需要充分理解上下文。當我們把上下文遮蓋住之後，模型應該無法準確理解語義，無法做出判斷，因此輸出的概率分佈應該是均勻概率分佈。基於這樣一個想法，就設計了這個任務。該過程可以表示爲：

對應的損失可以由如下公式表示：

整個模型的損失：

有了以上兩個任務之後，整個模型的損失可以表述爲：

實驗

在實驗中，作者更多的關注模型是否能夠判斷出 OOD 的情況以及在 cross-domain 情況下模型的表現。具體而言，本文以一些預訓練模型爲 baseline（BERT, RoBERTa，ALBERT），然後對比模型在原始情況以及考慮了本文提出的方法的情況下在這兩個任務上的表現，部分實驗結果如圖：

同時，作者也展示了使用本方法後，模型學習到的文檔 embedding 在可視化下的表現，具體如圖：

從這些實驗結果，都證實了本文提出的方法的有效性，而且 t-sne 圖的結果還是很明顯的。

總結

本文不再是直接思考一種新的做文本匹配的模型，而是深入思考了模型在作出判斷時應該是什麼情況，從可靠性的角度進行了深入分析，實驗方法也不是很難，但特別有意思，而且這裏邊也有一些對抗的思想，值得認真學習。

更多閱讀

#投稿通道#

讓你的論文被更多人看到

如何才能讓更多的優質內容以更短路徑到達讀者羣體，縮短讀者尋找優質內容的成本呢？答案就是：你不認識的人。

總有一些你不認識的人，知道你想知道的東西。PaperWeekly 或許可以成爲一座橋樑，促使不同背景、不同方向的學者和學術靈感相互碰撞，迸發出更多的可能性。

PaperWeekly 鼓勵高校實驗室或個人，在我們的平臺上分享各類優質內容，可以是最新論文解讀，也可以是學習心得或技術乾貨。我們的目的只有一個，讓知識真正流動起來。

???? 來稿標準：

• 稿件確係個人原創作品，來稿需註明作者個人信息（姓名+學校/工作單位+學歷/職位+研究方向）

• 如果文章並非首發，請在投稿時提醒並附上所有已發佈鏈接

• PaperWeekly 默認每篇文章都是首發，均會添加“原創”標誌

???? 投稿郵箱：

• 投稿郵箱：[email protected]

• 所有文章配圖，請單獨在附件中發送

• 請留下即時聯繫方式（微信或手機），以便我們在編輯發佈時和作者溝通

????

現在，在「知乎」也能找到我們了

進入知乎首頁搜索「PaperWeekly」

點擊「關注」訂閱我們的專欄吧

關於PaperWeekly

PaperWeekly 是一個推薦、解讀、討論、報道人工智能前沿論文成果的學術平臺。如果你研究或從事 AI 領域，歡迎在公衆號後臺點擊「交流羣」，小助手將把你帶入 PaperWeekly 的交流羣裏。

發表評論

所有評論

還沒有人評論，想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.

你的模型夠可靠麼？關鍵詞掩碼的模型可靠性提升方法探索

Nginx R31 doc 官方文檔-01-nginx 如何安裝

Qt/C++音視頻開發74-合併標籤圖形/生成yolo運算結果圖形/文字和圖形合併成一個/水印濾鏡

挑戰程序設計競賽 2.2章習題 POJ - 3617 Best Cow Line 貪心

字節面試：MySQL什麼時候鎖表？如何防止鎖表？

.NET8連接SQL SERVER 2008 R2 報：證書鏈是由不受信任的頒發機構頒發的

golang開發環境搭建(win10)

python計算機視覺學習筆記——PIL庫的用法

2021年美賽B題目思路（僅供參考）——AHP

OSPF默認路由生成

企業數據上雲必有一戰，華爲雲12.12雲數據庫2折起

你的模型夠可靠麼？關鍵詞掩碼的模型可靠性提升方法探索

適合新手前端學習資料（第十五天）

https://yachay.unat.edu.pe/blog/index.php?comment_area=format_blog&comment_component=blog&comment_co

linux以太網驅動總結