注意力機制:認知模型與計算機應用

注意力機制:認知模型與計算機應用

“注意力機制”在風靡計算機神經網絡設計之前,首先是一種被廣泛接受的人類認知方法。本調研文稿將首先從人類認知出發,討論幾種經典的人類注意力模型,和人類腦的研究的進展;然後我們將討論計算機領域對“注意力”概念的借用與實現,從NLP,CV,RL三大領域說明目前計算機模擬和應用attention的方法。

 

1. 基於注意的認知模型

幾乎所有的注意力模型都基於一個假設,外界存在大量的,超出了人們大腦處理能力的信息,而人們需要選擇性的處理這些內容。

1.1 經典的注意力模型

1.1.1 基於視覺選擇的注意力模型

視覺選擇模型是一類最直觀的注意力模型,關係到當前我們在觀察什麼。

聚光燈假設是最早期的視覺選擇模型,這種模型認爲,注意力彷彿認知系統中的聚光燈,處於聚光燈中心位置的信息被最細緻的處理,而聚光燈外的信息則被忽略。人能夠靈活的決定這個聚光燈的指向。

Treisman & Gelade(1980)提出了一種特徵整合模型。他們認爲模式識別具有兩個階段。在第一個階段,信息得到統一的並行處理,形成所謂的“特徵地圖”;而在第二個階段,也即“特徵整合”階段,需要人主動控制自己的注意力而辨認出客體。

Desimone & Duncan 提出了偏向競爭模型。他們將聚光燈模型形容成基於位置(location-based)的的注意力,而特徵整合則是基於客體的(object-based)。他們認爲大腦的不同皮層應用到了不同的注意力方式,視覺任務的完成需要兩者的協調

1.1.2 基於信息選擇的注意力模型

基於信息選擇的注意力模型主要考慮除視覺選擇外的其他信息選擇,主要是時序的線性信息如何被有效的組織利用。“過濾器”爲其中的一大類經典模型,這類方法認爲注意力機制,就像是一把篩子從當前(或過去累積的記憶中)篩選出重要信息進入高級分析階段。

Donald Eric Broadbent(1958)提出了早期選擇模型,也稱過濾器模型,單通道模型。早期選擇式的過濾器直接在感知階段進行信息的選擇性錄入。過濾器選擇信息<新異、較強、具有生物意義刺激、受人期待的信息>進入高級分析階段,其餘暫存於某種記憶中,並迅速衰退。

Anne Marie Treisman(1960, 1964)提出衰減的多通道模型。衰減的理論依賴於早期選擇模型。但是Anne注意到,殘存於記憶中的迅速衰減的記憶在之後的時刻可能被喚起,這意味着,如果人的認知是以類過濾器的方式存在,那麼必然不只有一個過濾器在其中起到作用。人的認知中同時存在多個感知通道,這些通道具有不同的興奮閾限。

J. Anthony Deutsch & Diana Deustch(1963)在前兩者的基礎之上又提出了晚期選擇模型。他確實贊同多通道的存在,並且同時認爲,所有通道的信息都會進入高級分析,而注意力作用於對所有通道信息的重要性整合。

Johnston&Heinz(1978)所提出的多態模型設想了一個更爲靈活的注意力系統。他將認知分爲三個階段,而注意力會根據實際任務在其中工作。1.感覺階段:物理特徵得到加工,建立感覺表徵(過濾器模型);2.語義階段:構建起刺激的語義表徵。比感覺加工付出更多努力;3.意識階段:感覺表徵或語義表徵進入意識(後期選擇模型)。

Neisser(1976)等提出的圖式模型是一類更爲特殊的信息選擇模型。不同於信息在不同通道的過濾,圖式模型強調了信息對於圖式的激活,圖式又對隱含信息進行反向激活的過程。圖式模型不僅是知識的統一表示方式,也是組織經驗的機制。對象和關係未被填充的空架構,簡單圖式可以作爲對象被嵌入到複雜圖式;圖式中的空插槽具有默認值,可以通過上下文填寫;不同領域的概念可以通過圖式聯繫。

1.1.3 基於注意力分配的模型

基於注意力分配的模型將注意力考慮爲一種資源,通過分配這種資源,可以更好的完成任務。

Danial Kahneman(1973)提出資源分配/限制模型,這種模型考慮到並行任務具有不同的價值,從而將認知能力不均勻的分派給不同的任務。

Schneider&Shiffrin(1977)提出雙加工理論。控制性加工(注意性加工):需要應用注意的加工,容量有限,可靈活地用於變化着的環境;自動加工:不受人控制的加工,不可避免,無須注意,沒有容量限制,高度有效性,且一旦形成難以改變。

我們能夠注意到,注意力機制的本質就是對所接受到的信息的選擇性激活。這個選擇可能會出現信息處理的各個階段,一方面是爲了避免不重要信息的干擾,另一方面是爲了更高效率的發揮認知網絡本身所具有的能力。

 

1.2 腦科學研究中的attention

 

腦神經科學較新的研究成果更深地揭示了注意力機制在激活,選擇和控制方面起到的作用。儘管都涉及到信息的選擇,不同的注意力很可能涉及到了相對獨立的腦回路。其中警報引起的注意力更多地側重對新異信息反應,既關心所處狀態(任務)的變化;而定向和執行中的注意力,更多的涉及到對於任務相關信息的選擇。總之,注意力是一種與意識密切相關的信息選擇,恰當的注意力意味着最佳的激活水平,從而允許人們自如的控制自己的行動。

一份更新的工作藉助強化學習解釋了人類認知中注意力機制的角色。它同樣贊成注意力具有約束維數的重要意義,同時特徵的價值驅動注意力的轉移,而人類的注意力主要由額頂頁網絡活動有關。文章在關於人類決策時腦活動的分析具有一個重要的發現:人們在做選擇時,偏向注意“高價值”的特徵;而在學習時,更關注“高不確定性”的特徵。

 

 

2. 計算機實現

目前注意力機制已經在計算機上得到了廣泛的應用,在大量的實現中,注意力被表現爲“門”的形式,這個“門”能決定信息是否能夠通過,從而決定這個信息是否能夠參與到後期的高級決策中。門控機制,早在注意力被明確提出應用在計算機深度網絡中,就以早見雛形,從非線性激活函數,到池化方法,再到LSTM的設計,都可見其身影。後來提出的很多注意力方法本質都是是計算策略更爲複雜的門。

 

下文按照NLP,CV,RL的三大分類,分別介紹了attention在不同領域的實現與應用。值得注意的是,不同分類的方法之間存在繼承和發展關係。

 

2.1 文本處理任務

 

機器翻譯任務中attention的應用使得Decoder端的輸入能夠同時與多個encoder端輸出的信息產生聯繫,

c_{i}=\sum_{j=1}^{T_{x}} \alpha_{i j} h_{j},
而不僅僅和單一隱狀態有關,達到了更好的翻譯效果。但是,由於attention依賴於RNN產生隱狀態,因此此類的attention方法往往具有較高的時間消耗。

 

Query-aware注意力機制其實非常類似於數據庫的查詢。encoder端時間上連續的隱狀態提供key,Decoder端提供query,

a_{ij} = \mathrm{Attention}(query_i, key_j).
<query, key> 的抽象是給了過去依賴RNN傳遞隱層信息的attention方法提供了並行化的處理方式。

 

2.1.1 軟注意力機制

 

基於RNN的注意力模型首先出現於文本翻譯,文章率先提出了軟注意力模型(Soft Attention Model, RAM),它利用attention方法作爲中間節點整合encoder信息到decoder輸入端,

 

e_{i j}=a\left(s_{i-1}, h_{j}\right),\\ \alpha_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{k=1}^{T_{x}} \exp \left(e_{i k}\right)}.
其中,encoder端到decoder端都使用了RNN結構。

2.1.2 全局注意力和局部注意力

 

文獻將上文的RAM方式歸納爲全局注意力(Global Attention Model, GAM)方式,並提出三類打分函數,


在此基礎上,模型還預測了對齊位置p_{t}

p_{t}=S \cdot \operatorname{sigmoid}\left(\boldsymbol{v}_{p}^{\top} \tanh \left(\boldsymbol{W}_{\boldsymbol{p}} \boldsymbol{h}_{t}\right)\right).
這就是作者提出局部注意力機制(Local Attention Model, LAM),

\boldsymbol{a}_{t}(s)=\operatorname{align}\left(\boldsymbol{h}_{t}, \overline{\boldsymbol{h}}_{s}\right) \exp \left(-\frac{\left(s-p_{t}\right)^{2}}{2 \sigma^{2}}\right).
從而通過這樣的方法,作者將軟注意力與硬注意力機制結合,而且減少encoder端的重複計算。

2.1.3 基於Queryattention

 

針對句子理解問題,文獻提出了Query-aware注意力機制,每個Query實際上都是隻我們希望從句子中探知得到的某種屬性。從而,網絡分別計算內容端輸出和查詢端輸出,又把這兩者的輸出整合成兩個矩陣,Query2Context和Contex2Query,之後的計算在此基礎上進行。

 

文獻正是利用了這一點提出了Scaled Dot-Product Attention (SDTA)方式,

\text { Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V.
通過這種方式進行attention計算,而不在依賴RNN網絡,提高了計算銷量。同時作者還提出了自注意力方案,這是由於在作者的結構中Qurey矩陣,Key矩陣,和Value矩陣可以源自同樣的信息域(而不同於上文具有文本域和查詢域)。在SDT注意力機制的基礎上,作者進一步提出了多頭注意力(Multi-Head Attention, MHA),這種方式允許了attention從信息結構不同的源信息域中提取信息。

 

2.2 視覺任務

視覺任務中attention也有大量應用,第一類方法和上文的局部注意力機制有關,通過RNN網絡迭代生成關注位置,這類方法主要面向是圖像解釋任務;第二類方法則不需要利用RNN提供額外信息。

2.2.1 利用RNN的視覺注意力方法

 

文章是第一篇在圖像領域使用基於RNN的attention方法的工作。參考了人的眼動掃描圖片進行觀察的方法,文獻通過RNN結構傳遞下次觀察位置。

 

工作提出RA-CNN網絡,利用類似的工作每次生成attention位置並放大,達到了很好的圖像識別效果。

 

一個圖像解釋的工作 考慮了類似的注意力方式,然而,不是生成一個位置,而是生成與位置有關的圖像蒙版。如上圖,該工作同時可視化了軟注意力機制和硬注意力機制的效果。文章提出SCA-CNN針對圖片解釋問題,不僅考慮空間注意力也考慮通道注意力。

 

一個圖像理解的研究也用到了相似query-aware的結構。此外,這個工作還應用了Bottom-Up 和 Top-down attention。其中Bottom-Up attention利用Fast R CNN從圖像本身提取特徵,而Top-down attention則是利用Question端LSTM產生的隱狀態得到soft attention。

2.2.2 其他視覺注意力方法

 

文章提出帶注意力的殘差學習(Residual Attention Learning, ARL),如圖每個帶注意力殘差模塊分爲兩支,左支爲軟遮罩支,右支爲特徵提取支。作者提出了三種方案對左支進行約束,以此分別對應混合注意力,通道注意力,位置注意力:

 

 

f_{1}\left(x_{i, c}\right)=\frac{1}{1+\exp \left(-x_{i, c}\right)}\\ f_{2}\left(x_{i, c}\right)=\frac{x_{i, c}}{\left\|x_{i}\right\|}\\ f_{3}\left(x_{i, c}\right)=\frac{1}{1+\exp \left(-\left(x_{i, c}-\operatorname{mean}_{c}\right) / \operatorname{std}_{c}\right)}
實驗證明了混合注意力具有最優的結果。

 

文章提出 SENets 從通道之間的關係來提高網絡性能,記每個通道c根據其卷積核參數v_c具有輸出u_c,作者首先通過Squeeze 函數進行全局嵌入,

z_{c}=\mathbf{F}_{s q}\left(\mathbf{u}_{c}\right)=\frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} u_{c}(i, j).
而後使用Excitation 函數利用z_c

\mathbf{s}=\mathbf{F}_{e x}(\mathbf{z}, \mathbf{W})=\sigma(g(\mathbf{z}, \mathbf{W}))=\sigma\left(\mathbf{W}_{2} \delta\left(\mathbf{W}_{1} \mathbf{z}\right)\right).
這個過程可以被可視爲上圖的過程。

 

文章通過整合最值池化和平均池化得到通道注意力和空間注意力方法,並在圖像識別任務上具有好的表現。與之不同,文章提出了並行進行通道注意力和空間注意力的方法。

2.3 強化學習任務

2.3.1 有模型學習

 

工作在有模型強化學習上實驗了強化學習機制的效果,該工作提出的fRL+decay是有模型強化學習方法,注意力被設計爲特徵的權重,根據

\phi_{d}=\frac{1}{z}\left[\sum_{f \in d} p\left(f=f^{*} | \mathcal{D}_{1: t-1}\right)\right]^{\alpha}.
而值根據,

V(S)=\sum_{d=1}^{3} w\left(f_{d}\right) \phi_{d},
這裏的符號表示和一般強化學習中的方式略有不同,S帶值一個選項,V(S)則表示該選項價值,D爲特徵維數。該工作的結果顯示注意力機制可以幫助我們決策時提煉關鍵特徵,從而指導高維環境的強化學習的任務並在某種程度上避免維數災難。

 

受貝葉斯認知模型的啓發,工作在fRL+attention的模型基礎上加入了對任務結構的假設,而這個假設通過有偏向的注意力作用於分離的特徵。

2.3.2 無模型單智能體強化學習

 

單智能體強化學習部分除了深入結合認知科學研究的工作,文章利用關係核,也就是由多頭自注意力網絡(MHA),來學習圖像內實體的內部關係。該工作在高維複雜遊戲如星際爭霸挖礦遊戲,推箱子任務上取得了很好的成績。

2.3.3 多智能體強化學習

多智能體強化學習任務表現出了比單智能認爲更爲嚴重的維數災難問題,因此,他們中的很多也使用了注意力機制,目的是從智能體的角度約簡維數。此處列舉兩個工作的主要區別是:ATOC採取了基於RNN的注意力模型(AM),目的是爲了從公共信道高效取得信息;MAAC利用了多頭注意力(MHA)而提高了效果。

之後的工作也主要利用MHA形成智能體之間的複雜關係通道。這裏的兩篇工作都具有兩層attention結構。其中,DGN利用MHA搭建了圖卷積網絡;而GA-AC/Comm 先後利用了硬注意力和軟注意力方法,從而達到更好的約簡。

 

 

參考文獻

1 Cognitive Neuroscience of Attention, AIMS Neuroscience, 2015

2 Dynamic Interaction between Reinforcement Learning and Attention in Multidimensional Environments, Neuron, 2017

3 Neural machine translation by jointly learning to align and translate, ICLR,2015

4 Effective Approaches to Attention-based Neural Machine Translation, arXiv, 2015

5 Bidirectional attention flow for machine comprehension, ICLR, 2017

6 Attention Is All You Need, NIPS, 2017

7 recurrent models of visual attention, NIPS, 2014

8 Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition, CVPR, 2017

9 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention,  ICML, 2015

10 SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning, CVPR, 2017

11 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, CVPR, 2018

12 Residual Attention Network for Image Classification, CVPR,2017

13 Squeeze-and-Excitation Networks, CVPR,2018

14 CBAM: Convolutional Block Attention Module, CVPR, 2018

15 Dual Attention Network for Scene Segmentation, CVPR, 2019

16 Reinforcement Learning in Multidimensional Environments Relies on Attention Mechanisms, Journal of Neuroscience, 2015

17 Holistic Reinforcement Learning: The Role of Structure and Attention, Trends in cognitive sciences,  2019

18 Relational deep reinforcement learning, arXiv, 2018

19 Learning Attentional Communication for Multi-Agent Cooperation, NIPS, 2018

20 Actor-Attention-Critic for Multi-Agent Reinforcement Learning, arXiv, 2018

21 Graph Convolutional Reinforcement Learning for Multi-Agent Cooperation, arXiv, 2018

22 Multi-Agent Game Abstraction via Graph Attention Neural Network, AAAI, 2020

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章