Attention原理

1 Attention 基本原理

       神經網絡中可以存儲的信息量稱爲網絡容量(Network Capacity)。一般來 講,利用一組神經元來存儲信息時,其存儲容量和神經元的數量以及網絡的複雜 度成正比。如果要存儲越多的信息,神經元數量就要越多或者網絡要越複雜,進 而導致神經網絡的參數成倍地增加。

       我們人腦的生物神經網絡同樣存在網絡容量問題,人腦中的工作記憶大概 只有幾秒鐘的時間,類似於循環神經網絡中的隱狀態。在有限的時間內,並不能同時處理來自視覺、聽覺、觸覺各種各樣的輸入信息。大腦神經系統有兩個重要機制可以解決信息過載問題:注意力記憶機制。

注意力一般分爲兩種

  • 一種是自上而下的意識的注意力,稱爲聚焦式注意力(Focus Attention)。 聚焦式注意力是指有預定目的、依賴任務的、主動有意識地聚焦於某一對象的注意力, 聚焦式注意力也常稱爲選擇 性注意力(Selective Attention)。
  • 另一種是自下而上的意識的注意力,稱爲基於顯著性注意力(SaliencyBased Attention)。基於顯著性的注意力是由外界刺激驅動的注意,不需要主動 干預,也和任務無關。

下面通過一個例子來說明兩種注意力的區別:

雞尾酒會效應。當一個人在吵鬧的雞尾酒會上 和朋友聊天時,儘管周圍噪音干擾很多,他還是可以聽到朋友的談話內容,而忽 略其他人的聲音(聚焦式注意力)。同時,如果未注意到的背景聲中有重要的詞 (比如他的名字),他會馬上注意到(顯著性注意力)

Attention的作用:只選擇一些關鍵的信息輸入進行處理,來提高神經網絡的效率。

Attention計算流程

圖片來源:深度學習中的注意力機制

在第一個階段,可以引入不同的函數和計算機制,根據Query和某個key_{i},計算兩者的相似性或者相關性,最常見的方法包括:求兩者的向量點積、求兩者的向量Cosine相似性或者通過再引入額外的神經網絡來求值。

第一階段產生的分值根據具體產生的方法不同其數值取值範圍也不一樣,第二階段引入類似SoftMax的計算方式對第一階段的得分進行數值轉換,一方面可以進行歸一化,將原始計算分值整理成所有元素權重之和爲1的概率分佈;另一方面也可以通過SoftMax的內在機制更加突出重要元素的權重。即一般採用如下公式計算:

第二階段的計算結果a_{i}即爲Value對應的權重係數,然後進行加權求和即可得到Attention數值:

通過如上三個階段的計算,即可求出針對Query的Attention數值,目前絕大多數具體的注意力機制計算方法都符合上述的三階段抽象計算過程。

2 Hierarchical Attention Networks

 HAN模型就是分層次的利用注意力機制來構建文本向量表示的方法。

 文本由句子構成,句子由詞構成,HAN模型對應這個結構分層的來構建文本向量表達;

 文本中不同句子對文本的主旨影響程度不同,一個句子中不同的詞語對句子主旨的影響程度也不同,因此HAN在詞語層面和句子層面分別添加了注意力機制;

 分層的注意力機制還有一個好處,可以直觀的看出用這個模型構建文本表示時各個句子和單詞的重要程度,增強了可解釋性。

        這篇論文裏面使用雙向GRU來構建句子表示和文本表示,以句子爲例,得到循環神經網絡中每個單元的輸出後利用注意力機制整合得到句子向量表示(不使用attention時,一般會使用MAX或AVE),過程如下:

       按照文中說法,先經過一層MLP得到隱層表示;然後與word level context vector (詞語級別的context vector)做點積,各詞語得到的結果再經過softmax函數後的結果就是各自的重要程度,即;最後加權和得到句子表示。文本向量的構建與此一致,之後經過全連接層和softmax分類。

3  Attention模型進行文本分類

還有點沒吃透

https://androidkt.com/tensorflow-text-classification-attention-mechanism/

 

推薦文章:

《神經網絡與深度學習》

深度學習中的注意力機制

https://blog.csdn.net/yyy430/article/details/88635646#HAN%E7%9A%84%E5%8E%9F%E7%90%86%EF%BC%88Hierarchical%20Attention%20Networks%EF%BC%89

Hierarchical Attention Networks for Document Classification

 

 

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章