基於遞歸和注意力機制的神經模型解釋

基於遞歸和注意力機制的神經模型解釋

Interpreting Recurrent and Attention-Based Neural Models: a Case Study on Natural Language Inference

Abstract

​ 在本文中,我們通過一個NLI神經模型的案例研究來解釋這種基於深度學習的模型。我們通過可視化attention的顯著性和LSTM門控信號來解釋NLI模型的中間層。我們提供了幾個例子,在這些例子中,我們的方法能夠揭示有趣的見解,並識別有助於模型決策的關鍵信息

Introduction

​ 之前的工作主要是通過可視化文字或隱藏狀態的表示完成的,以及分析它們在情感分析和詞性標註等淺層任務中的重要性(通過顯著性或刪除)。與此相反,在具有挑戰性的NLI任務中,我們着重於解釋深層模型的中間層的門控和attention信號。解釋深層模型的一個關鍵概念是顯著性,它決定了對最終決策來說什麼是關鍵的。到目前爲止,顯著性僅用於說明單詞嵌入的影響。在本文中,我們將這一概念擴展到深度模型的中間層,以檢查attention的顯著性以及LSTM門控信號,以理解這些組件的行爲及其對最終決策的影響。

我們有兩個主要貢獻。

  1. 引入新的策略來解釋深層模型在其中間層的行爲,具體來說,通過檢查attention和門控信號的顯著性。
  2. 對NLI任務的SOTA模型進行了廣泛的分析,結果顯示我們的方法揭示了傳統的對於attention和單詞顯著性的檢驗方法所沒有的有趣見解。

​ 在本文中,我們的重點是NLI,這是一個基本的NLP任務,需要理解和推理。此外,SOTA NLI模型採用了複雜的神經結構,涉及到如attention和重複閱讀這種關鍵機制,廣泛應用於其他NLP任務的成功模型。因此,我們希望我們的方法對其他自然理解任務也有潛在的用處。

Task and Model

​ 在NLI中,我們被給予兩個句子,一個前提和一個假設,目標是決定邏輯關係(蘊涵,中立或矛盾)。本文分析ESIM,ESIM首先使用LSTM獨立閱讀句子,然後用attention層將句子進行對比。接着又是一層LSTM閱讀併產生最終的表示。最後將表示進行比較再做出預測。ESIM-50是50維,ESIM-300是300維。

Visualization of Attention and Gating

​ 在這項工作中,我們主要感興趣的是NLI模型的內部工作。特別地,我們關注LSTM門信號和attention,以及它們如何對模型的決策做出貢獻。

Attention

​ NLI之前的幾項工作試圖將注意層可視化,以提供對其模型的一些理解。這種可視化生成了一個熱圖,表示前提和假設的隱藏狀態之間的相似性。不幸的是,無論決定如何(蘊涵、中立或矛盾),similarities往往是相同的。

例子:

前提:

“A kid is playing in the garden”

三種不同的假設:

h1: A kid is taking a nap in the garden (矛盾)

h2: A kid is having fun in the garden with her family (中立)

h3: A kid is having fun in the garden (蘊涵)

image

圖1:標準化後的attention和attention saliency的可視化。每一列顯示一個示例的可視化。上面的圖表示attention可視化,下面的圖表示attention saliency的可視化。預測標籤顯示在每一列的頂部。

​ 圖1的第一行顯示了由ESIM-50產生的三種情況的標準化attention的可視化,它對所有這些情況都做出了正確的預測。從圖中我們可以看到,這三種attention map是相當相似的,儘管他們的決定完全不同。關鍵的問題是,attention可視化只能讓我們看到模型是如何將前提與假設結合起來的,但沒有顯示這種結合是如何影響決策的。這促使我們考慮attention saliency。

Attention Saliency

​ 在NLP中,顯著性被用來研究詞彙對最終決策的重要性。具體地說,在給定一個前提-假設對和模型的決策\(y\)的情況下,我們將一對前提-假設隱含狀態\(e_{ij}\)之間的相似性作爲一個變量。決策\(S(y)\)是包括所有\(i,j\)\(e_{ij}\)的函數。定義\(e_{ij}\)的顯著性爲\(\frac{\part S(y)}{ \part e_{i,j}}\)

​ 圖1第二行爲同一ESIM-50模型獲得的三個樣本的attention saliency圖。有趣的是,不同示例的顯著性明顯不同,每個都突出對齊的不同部分。對於h1,我們看到“is playing”和“taking a nap”的對齊,以及“in a garden”的對齊對矛盾的決定具有最突出的貢獻。對於h2來說,“kid”和“her family”的對齊似乎是最突出的決定。最後,在h3中,“is having fun”和“kid is playing”之間的一致性對決定影響最大。

​ 從這個例子中,我們可以看到,通過檢查attention saliency,我們可以有效地確定哪一部分的對齊對最終的預測做出最關鍵的貢獻,而僅僅可視化attention本身揭示了很少的信息。

Comparing Models

用attention saliency比較兩個不同的ESIM:ESIM-50和ESIM-300。

前提:A man ordered a book

假設1:John ordered a book from amazon

假設2:Mary ordered a book from amazon

ESIM-50未能捕捉到兩個不同名字的性別聯繫,輸出了中立。而ESIM-300正確地預測了第一種情況的包含性和第二種情況的矛盾性。

image

​ 在圖2的前兩列(列a和b)中,我們分別可視化了兩個例子對ESIM-50(左)和ESIM-300(右)的attention。雖然這兩個模型做出了不同的預測,但它們的attention map在性質上是相似的。

​ 圖2中3-4列分別給出了ESIM-50和ESIM-300對兩個樣例的attention saliency。我們可以看到,在這兩個例子中,ESIM-50主要關注“ordered”的對齊,而ESIM-300更多地關注“John”和“Mary”與“man”的對齊。有趣的是,對於基於attention map的兩個關鍵單詞對(“John”,“man”)和(“Mary”,“man”),與ESIM-50相比,ESIM-300似乎沒有學習到顯著不同的相似值。然而,顯著性圖顯示,這兩個模型使用這些值的方式非常不同,只有ESIM-300正確地關注它們。

LSTM Gating Signals

​ LSTM選通信號決定信息的流動。換句話說,它們表示LSTM如何讀取單詞序列,以及如何捕獲和組合來自不同部分的信息。LSTM門控信號很少被分析,可能由於它們的高維性和複雜性。在這項工作中,我們考慮了門控信號和他們的顯著性,這是對每個門控信號計算作爲最終決定的分數的偏導數。

​ 我們沒有考慮門控信號的單個維度,而是將它們聚合以考慮它們的規範,既考慮信號,也考慮其顯著性。注意,ESIM模型有兩個LSTM層,第一個(輸入)LSTM執行輸入編碼,第二個(推理)LSTM生成推理的表示。

​ 在圖3中,我們爲正向輸入(下三行)和推理(上三行)lstm的不同門(輸入、忘記、輸出)繪製歸一化信號和顯著性規範。這些結果是由第3.1節的三個例子的ESIM-50模型產生的,每列一個。

image

​ 我們首先注意到,在同一個LSTM中,不同門之間的顯著性趨於一致,這表明我們可以聯合解釋它們,以識別句子中對模型預測重要的部分。

​ 顯著性曲線顯示了不同的例子之間的顯著差異。例如,中性例子的顯著性模式與其他兩個例子有顯著性差異,並且集中在句尾("with her family"),如果句子中沒有這一部分,這種關係將會是“蘊含”。這個特定部分的焦點(由其強烈的顯著性和強烈的門控信號所證明),呈現了從前提得不到的信息,解釋了模型的中立決定。

​ 比較輸入LSTM和推理LSTM的行爲,我們觀察到有趣的焦點轉移。特別是,我們發現推理LSTM傾向於在句子的關鍵部分看到更集中的顯著性,而輸入LSTM看到更廣泛的顯著性。例如,在矛盾的例子中,輸入LSTM的“take”和“in”顯著性都很高,而LSTM的推理主要集中在“nap”上,這是暗示矛盾的關鍵詞。請注意,ESIM在輸入層和推理LSTM層之間使用注意力來對齊/對比句子,因此推理LSTM更關注句子之間的關鍵差異是有道理的。在中立的例子中也可以觀察到這一點。

​ 值得注意的是,雖然總體趨勢相似,但反向LSTM有時會聚焦在句子的不同部分,說明正向和倒向閱讀對句子的理解是互補的。

Conclusion

​ 我們爲神經模型提出了新的可視化和解釋策略,以理解它們如何和爲什麼工作。我們證明了所提出的策略在複雜任務上的有效性(NLI)。我們的策略能夠提供以前解釋技術無法實現的有趣見解。我們未來的工作將擴展到考慮其他的NLP任務和模型,併爲進一步改進這些模型提供有用的見解。

https://aclanthology.org/D18-1537.pdf

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章