Motivation:
在多語言的文本分類問題上一般都面臨兩個問題:一是計算成本會隨着語言數量的增加而線性增加;模型缺乏不同語言之間知識遷移能力,也就是在一種語言上習得的知識不能應用到另一種語言上。當前解決上述問題的方案都需要不同語言的文本具有相同的標籤,但是這個要求往往很難得到滿足。因此,本文提出一種多語言的分層注意力模型,該模型在保證儘量少添加參數的同時,使模型具有知識遷移的能力。
單語模型結構:
分層注意力網絡實現文本分類一般要經過三個步驟:
- 編碼層:一般採用全連接、GRU或雙向GRU;
- 注意力層:分別在單詞級別和句子級別給予較大權重;
- 分類層:對句子級別注意力層的輸出經過線性層之後再使用sigmoid輸出,因爲一篇文檔可能對應多個label,所以預測結果取輸出大於某個閾值對應的多個標籤。
多語言模型結構:
模型整體框架和上面類似,區別在於爲了降低參數量和學習不同語言文本的結構共享了一部分參數信息:一、共享encoders部分的參數;二、共享attention部分的參數;三、共享encoders和attention的參數(both)。
此外,在對其中一種語言更新參數的過程中也要更新其他語言的參數,因此有如下損失函數的公式:
實驗結果:
分別從full-resource scenario和low-resource scenario觀察模型的F1值。
在full-resource場景下,對於以上三種共享參數的模型,可以發現共享attention層的參數會達到最好的效果,而share both反而會帶來性能下降。此外,在其他語言上訓練的模型在目標語言上也能測試不錯的效果,體現了知識的遷移能力。
在low-resource場景下,多語言模型比單語言模型在少量數據的表現更好。並且,往往share both能取得最好的效果。
總結:
- 可以嘗試在模型的不同位置使用注意力機制;
- 優化損失函數融合近似的主題信息;