注意力機制分類、原理、應用

1.簡介

 注意力機制(Attention Mechanism)源於對人類視覺的研究。在認知科學中,由於信息處理的瓶頸,人類會選擇性地關注所有信息的一部分,同時忽略其他可見的信息。上述機制通常被稱爲注意力機制
 綜上,注意力機制主要有兩個方面:決定需要關注輸入的哪部分;分配有限的信息處理資源給重要的部分
 在深度學習中,注意力可以藉助重要性權重向量來實現:在預測或推斷一個元素時,如圖片中的像素點或句中的一個詞,我們使用注意力向量來判斷,它與其他元素有多強的關聯性,然後對加權後的向量求和逼近最後的目標值(target)。

2.注意力機制的誕生

注意力機制最早於2014年在計算機視覺中提出。但是本文的討論以機器翻譯任務上的seq2seq模型爲例。

Seq2Seq模型: 將一個輸入序列(source)轉化爲另一個序列(target),兩個序列都可以是不定長的。

場景:

  • 多語言機器翻譯(文本或語音)
  • 問答對話對話生成系統
  • 將句子解析爲語法樹

結構:循環神經網絡結構

  • 編碼器:處理序列輸入並壓縮信息到一個固定長度的上下文向量中。上下文向量被當做是輸入序列的語義概要。
  • 解碼器:由上下文向量初始化,並每次產生一個轉碼輸出。

源輸入和目標輸出的語義對齊問題由上下文向量學習和控制。上下文向量處理三方面的信息:

  1. 編碼器的隱藏狀態
  2. 解碼器的隱藏狀態
  3. 源輸入和目標輸出的對齊

在這裏插入圖片描述
缺點: 固定長度上下文向量無法記憶長句子。
解決方法: 提出注意力機制(Bahdanau 2015)。注意力機制考慮了上下文向量和所有序列輸入的信息,構建了“連接”。每一個輸出元素下的連接的權重都是自動學習的。上下文向量已經考慮了整體輸入序列信息,不需要擔心遺忘的問題。
在這裏插入圖片描述

3.不同類別的計算原理

計算步驟:

  1. 在所有輸入信息上計算注意力分佈
  2. 根據注意力分佈來計算輸入信息的加權平均

3.1.普通模式注意力

定義:

  • 和任務有關的查詢向量q\bm q
  • 注意力變量z[1,N]z\in [1,N]表示被選擇信息的索引位置。即z=iz=i表示選擇了第ii個輸入信息
  • 在給定q\bm qXX下,選擇第ii個輸入信息的概率αi\alpha_i稱爲注意力分佈(Attention Distribution)
  • s(xi,q)s(x_i, \bm q)爲注意力打分函數

計算注意力分佈:
αi=p(z=iX,q)=softmax(s(xi,q))=exp(s(xi,q))j=1Nexp(xj,q)\alpha_i=p(z=i|X,\bm q)\\=softmax(s(x_i,\bm q))\\=\frac{exp(s(x_i,\bm q))}{ \sum_{j=1}^{N}exp(x_j,\bm q)}

注意力打分函數:

  • 加性模型 s(xi,q)=vTtanh(Wxi+Uq)s(x_i,\bm q)=v^Ttanh(Wx_i+U\bm q)
  • 點積模型 s(xi,q)=xiTqs(x_i,\bm q)=x_i^T\bm q
  • 縮放點積模型 s(xi,q)=xiTqds(x_i,\bm q)=\frac{x_i^T\bm q}{\sqrt d}
  • 雙線性模型 s(xi,q)=xiTWqs(x_i,\bm q)=x_i^TW\bm q
    其中,W,U,vW,U,v爲可學習的網絡參數,dd爲輸入信息的維度。

理論上,加性模型和點積模型的複雜度差不多,但是點積模型在實現上可以更好地利用矩陣乘積,從而計算效率更高。但當輸入信息的維度dd比較高,點積模型的值通常有比較大方差,從而導致softmax函數的梯度會比較小。因此,縮放點積模型可以較好地解決這個問題。雙線性模型可以看做是一種泛化的點積模型。假設W=UTVW = U^TV,雙線性模型可以寫爲s(xi,q)=xiTUTVq=(Ux)T(Vq)s(x_i,\bm q) = x^T_i U^TV\bm q = (Ux)^T(V\bm q),即分別對xxqq進行線性變換後計算點積。相比點積模型,雙線性模型在計算相似度時引入了非對稱性。

加權平均:
注意力分佈αi\alpha_i可以解釋爲在給定任務相關的查詢q\bm q時,第ii個信息受關注的程度。

3.1.1.軟性注意力

在這裏插入圖片描述
我們採用一種“軟性”的信息選擇機制對輸入信息進行彙總,其選擇的信息是所有輸入信息在注意力分佈下的期望
att(X,q)=i=1Nαixi=Ezp(zX,q)[X]att(X,\bm q)=\displaystyle\sum_{i=1}^N\alpha_ix_i=E_{z\sim p(z|X,\bm q)}[X]
注意: 上面這個公式,被稱爲軟性注意力機制(Soft Attention Mechanism)。

3.1.2.硬性注意力

只關注到某一個位置上的信息。

實現方式1: 選取最高概率的輸入信息
att(X,q)=xj,j=argmaxi=1Nαiatt(X,\bm q)=x_j,j=argmax_{i=1}^{N}\alpha_i

實現方式2: 在注意力分佈式上隨機採樣

缺點: 基於最大采樣或隨機採樣的方式來選擇信息。因此最終的損失函數與注意力分佈之間的函數關係不可導,無法使用在反向傳播算法進行訓練。爲了使用反向傳播算法,一般使用軟性注意力來代替硬性注意力。

3.2.鍵值對模式:鍵值對注意力

用鍵值對(key-value pair)格式來表示輸入信息,其
中“鍵”用來計算注意力分佈αi\alpha_i,“值”用來計算聚合信息。

  • NN個輸入信息:(K,V)=[(k1,v1),,(kN,vN)](K, V) = [(k_1, v_1), · · · , (k_N, v_N)]
  • 給定任務相關的查詢向量q\bm q
  • s(ki,q)s(k_i,q)爲打分函數

注意力函數爲:
att((K,V),q)=i=1Nαivi=i=1Nexp(s(ki,q))jexp(s(kj,q))viatt((K,V),\bm q)=\displaystyle\sum_{i=1}^{N}\alpha_iv_i\\=\displaystyle\sum_{i=1}^{N}\frac{exp(s(k_i,q))}{\sum_jexp(s(k_j,q))}v_i
注意:K=VK=V時,鍵值對模式就等價於普通的注意力機制。
在這裏插入圖片描述

3.3.多頭注意力(Multi-Head Attention)

利用多個查詢Q=[q1,,qM]Q = [\bm q_1, · · · , \bm q_M],來平行地計算從輸入信息中選取多個信息。每個注意力關注輸入信息的不同部分。
att((K,V),Q)=att((K,V),q1)att((K,V),qM)att((K,V),Q)=att((K,V),\bm q_1)\oplus…\oplus att((K,V),\bm q_M)
其中,\oplus表示向量拼接。

3.4.結構化注意力

 要從輸入信息中選取出和任務相關的信息,主動注意力是在所有輸入信息上的多項分佈,是一種扁平(flat)結構。
 如果輸入信息本身具有層次(hierarchical)結構,比如文本可以分爲詞、句子、段落、篇章等不同粒度的層次,我們可以使用層次化的注意力來進行更好的信息選擇[Yang et al., 2016]。
 此外,還可以假設注意力上下文相關的二項分佈,用一種圖模型來構建更復雜的結構化注意力分佈[Kim et al., 2017]。

4.應用

注意力機制一般可以用作一個神經網絡中的組件

4.1.指針網絡

 注意力機制主要是用來做信息篩選從輸入信息中選取相關的信息
 注意力機制可以分爲兩步:一是計算注意力分佈αα,二是根據αα來計算輸入信息的加權平均。
 我們可以只利用注意力機制中的第一步,將注意力分佈作爲一個軟性的指針(pointer)指出相關信息的位置

指針網絡(Pointer Network)[Vinyals et al., 2015] 是一種序列到序列模型。
輸入是長度爲nn的向量序列X=x1,,xnX = x_1, · · · , x_n
輸出是輸入序列的下標/索引序列c1:m=c1,c2,,cmc_{1:m} = c_1, c_2, · · · , c_m,其中ci[1,n],ic_i ∈ [1, n], ∀i
比如下圖中,輸入爲20, 5, 10,輸出爲1, 3, 2。

條件概率 p(c1:mxi:n)=i=1mp(cic1:i1,x1:n)i=1mp(cixc1,....,xci1,x1:n)p(c_{1:m}|x_{i:n})=\displaystyle\prod_{i=1}^mp(c_i|c_{1:i-1},x_{1:n})\approx\displaystyle\prod_{i=1}^mp(c_i|x_{c_1},....,x_{c_{i-1}},x_{1:n})
其中,條件概率p(cixc1,....,xci1,x1:n)p(c_i|x_{c_1},....,x_{c_{i-1}},x_{1:n})可以通過注意力分佈來計算。
在這裏插入圖片描述
假設用一個循環神經網絡對xc1,....,xci1,x1:nx_{c_1},....,x_{c_{i-1}},x_{1:n}進行編碼得到向量hih_i,則
p(cic1:i1,x1:n)=softmax(si,j)p(c_i|c_{1:i-1},x_{1:n})=softmax(s_{i,j})
si,j=vTtanh(Wxj+Uhi),j[1,n]s_{i,j}=v^Ttanh(Wx_j+Uh_i),\forall j\in[1,n]
其中,v,W,Uv,W,U爲可學習的參數,si,js_{i,j}爲在解碼過程的第ii步時,每個輸入向量的未歸一化的注意力分佈。

其實我有點沒看懂……

4.2.自注意力模型

 當使用神經網絡來處理一個變長的向量序列時,通常可以使用卷積網絡或循環網絡進行編碼來得到一個相同長度的輸出向量序列。它們是一種局部的編碼方式,只建模了輸入信息的局部依賴關係

雖然循環網絡理論上可以建立長距離依賴關係,但是由於信息傳遞的容量以及梯度消失問題,實際上也只能建立短距離依賴關係。

建立輸入序列之間的長距離依賴關係

  1. 增加網絡的層數,通過一個深層網絡來獲取遠距離的信息交互
  2. 使用全連接網絡。全連接網絡是一種非常直接的建模遠距離依賴的模型,但是無法處理變長的輸入序列。不同的輸入長度,其連接權重的大小也是不同的。這時我們就可以利用注意力機制來“動態”地生成不同連接的權重,這就是自注意力模型(Self-Attention Model)。

在這裏插入圖片描述
計算原理:
輸入序列X=[x1,...,xN]Rd1×NX=[x_1,...,x_N]\in R^{d_1×N}
輸出序列H=[h1,...,hN]Rd2×NH=[h_1,...,h_N]\in R^{d_2×N}

  • 首先,通過線性變換得到三組向量序列:
    Q=WQXRd3×NQ=W_QX\in R^{d_3×N}QQ爲查詢向量序列
    K=WKXRd3×NK=W_KX\in R^{d_3×N}KK爲鍵向量序列
    V=WVXRd3×NV=W_VX\in R^{d_3×N}VV爲值向量序列
    其中,WQ,WK,WVW_Q,W_K,W_V分別爲可學習的參數矩陣。
  • 計算輸出向量:
    hi=att((K,V),qi)=j=1Nαijvj=j=1Nsoftmax(s(kj,qi))vjh_i=att((K,V),\bm q_i)=\displaystyle\sum_{j=1}^N\alpha_{ij}v_j\\=\displaystyle\sum_{j=1}^Nsoftmax(s(k_j,\bm q_i))v_j
    其中i,j[1,N]i, j ∈ [1,N]爲輸出和輸入向量序列的位置,連接權重αijα_{ij}由注意力機制動態生成。

如果使用縮放點積來作爲注意力打分函數,輸出向量序列可以寫爲H=Vsoftmax(KTQd3)H=Vsoftmax(\frac{K^TQ}{\sqrt{d_3}})

評價:
 自注意力模型可以作爲神經網絡中的一層來使用,有效地建模長距離依賴問題。既可以用來替換卷積層和循環層[Vaswani et al., 2017],也可以和它們一起交替使用[Shen et al., 2018](比如XX可以是卷積層或循環層的輸出)。
 自注意力模型計算的權重αijα_{ij}只依賴qiq_ikjk_j的相關性,而忽略了輸入信息的位置信息。因此在單獨使用時,自注意力模型一般需要加入位置編碼信息來進行修正[Vaswani et al., 2017]。

參考

https://www.jianshu.com/p/c9490f9e59ba
https://blog.csdn.net/joshuaxx316/article/details/70665388
https://www.jianshu.com/p/9b922fb83d77
https://blog.csdn.net/tg229dvt5i93mxaq5a6u/article/details/78422216

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章