注意力机制:认知模型与计算机应用

注意力机制:认知模型与计算机应用

“注意力机制”在风靡计算机神经网络设计之前,首先是一种被广泛接受的人类认知方法。本调研文稿将首先从人类认知出发,讨论几种经典的人类注意力模型,和人类脑的研究的进展;然后我们将讨论计算机领域对“注意力”概念的借用与实现,从NLP,CV,RL三大领域说明目前计算机模拟和应用attention的方法。

 

1. 基于注意的认知模型

几乎所有的注意力模型都基于一个假设,外界存在大量的,超出了人们大脑处理能力的信息,而人们需要选择性的处理这些内容。

1.1 经典的注意力模型

1.1.1 基于视觉选择的注意力模型

视觉选择模型是一类最直观的注意力模型,关系到当前我们在观察什么。

聚光灯假设是最早期的视觉选择模型,这种模型认为,注意力仿佛认知系统中的聚光灯,处于聚光灯中心位置的信息被最细致的处理,而聚光灯外的信息则被忽略。人能够灵活的决定这个聚光灯的指向。

Treisman & Gelade(1980)提出了一种特征整合模型。他们认为模式识别具有两个阶段。在第一个阶段,信息得到统一的并行处理,形成所谓的“特征地图”;而在第二个阶段,也即“特征整合”阶段,需要人主动控制自己的注意力而辨认出客体。

Desimone & Duncan 提出了偏向竞争模型。他们将聚光灯模型形容成基于位置(location-based)的的注意力,而特征整合则是基于客体的(object-based)。他们认为大脑的不同皮层应用到了不同的注意力方式,视觉任务的完成需要两者的协调

1.1.2 基于信息选择的注意力模型

基于信息选择的注意力模型主要考虑除视觉选择外的其他信息选择,主要是时序的线性信息如何被有效的组织利用。“过滤器”为其中的一大类经典模型,这类方法认为注意力机制,就像是一把筛子从当前(或过去累积的记忆中)筛选出重要信息进入高级分析阶段。

Donald Eric Broadbent(1958)提出了早期选择模型,也称过滤器模型,单通道模型。早期选择式的过滤器直接在感知阶段进行信息的选择性录入。过滤器选择信息<新异、较强、具有生物意义刺激、受人期待的信息>进入高级分析阶段,其余暂存于某种记忆中,并迅速衰退。

Anne Marie Treisman(1960, 1964)提出衰减的多通道模型。衰减的理论依赖于早期选择模型。但是Anne注意到,残存于记忆中的迅速衰减的记忆在之后的时刻可能被唤起,这意味着,如果人的认知是以类过滤器的方式存在,那么必然不只有一个过滤器在其中起到作用。人的认知中同时存在多个感知通道,这些通道具有不同的兴奋阈限。

J. Anthony Deutsch & Diana Deustch(1963)在前两者的基础之上又提出了晚期选择模型。他确实赞同多通道的存在,并且同时认为,所有通道的信息都会进入高级分析,而注意力作用于对所有通道信息的重要性整合。

Johnston&Heinz(1978)所提出的多态模型设想了一个更为灵活的注意力系统。他将认知分为三个阶段,而注意力会根据实际任务在其中工作。1.感觉阶段:物理特征得到加工,建立感觉表征(过滤器模型);2.语义阶段:构建起刺激的语义表征。比感觉加工付出更多努力;3.意识阶段:感觉表征或语义表征进入意识(后期选择模型)。

Neisser(1976)等提出的图式模型是一类更为特殊的信息选择模型。不同于信息在不同通道的过滤,图式模型强调了信息对于图式的激活,图式又对隐含信息进行反向激活的过程。图式模型不仅是知识的统一表示方式,也是组织经验的机制。对象和关系未被填充的空架构,简单图式可以作为对象被嵌入到复杂图式;图式中的空插槽具有默认值,可以通过上下文填写;不同领域的概念可以通过图式联系。

1.1.3 基于注意力分配的模型

基于注意力分配的模型将注意力考虑为一种资源,通过分配这种资源,可以更好的完成任务。

Danial Kahneman(1973)提出资源分配/限制模型,这种模型考虑到并行任务具有不同的价值,从而将认知能力不均匀的分派给不同的任务。

Schneider&Shiffrin(1977)提出双加工理论。控制性加工(注意性加工):需要应用注意的加工,容量有限,可灵活地用于变化着的环境;自动加工:不受人控制的加工,不可避免,无须注意,没有容量限制,高度有效性,且一旦形成难以改变。

我们能够注意到,注意力机制的本质就是对所接受到的信息的选择性激活。这个选择可能会出现信息处理的各个阶段,一方面是为了避免不重要信息的干扰,另一方面是为了更高效率的发挥认知网络本身所具有的能力。

 

1.2 脑科学研究中的attention

 

脑神经科学较新的研究成果更深地揭示了注意力机制在激活,选择和控制方面起到的作用。尽管都涉及到信息的选择,不同的注意力很可能涉及到了相对独立的脑回路。其中警报引起的注意力更多地侧重对新异信息反应,既关心所处状态(任务)的变化;而定向和执行中的注意力,更多的涉及到对于任务相关信息的选择。总之,注意力是一种与意识密切相关的信息选择,恰当的注意力意味着最佳的激活水平,从而允许人们自如的控制自己的行动。

一份更新的工作借助强化学习解释了人类认知中注意力机制的角色。它同样赞成注意力具有约束维数的重要意义,同时特征的价值驱动注意力的转移,而人类的注意力主要由额顶页网络活动有关。文章在关于人类决策时脑活动的分析具有一个重要的发现:人们在做选择时,偏向注意“高价值”的特征;而在学习时,更关注“高不确定性”的特征。

 

 

2. 计算机实现

目前注意力机制已经在计算机上得到了广泛的应用,在大量的实现中,注意力被表现为“门”的形式,这个“门”能决定信息是否能够通过,从而决定这个信息是否能够参与到后期的高级决策中。门控机制,早在注意力被明确提出应用在计算机深度网络中,就以早见雏形,从非线性激活函数,到池化方法,再到LSTM的设计,都可见其身影。后来提出的很多注意力方法本质都是是计算策略更为复杂的门。

 

下文按照NLP,CV,RL的三大分类,分别介绍了attention在不同领域的实现与应用。值得注意的是,不同分类的方法之间存在继承和发展关系。

 

2.1 文本处理任务

 

机器翻译任务中attention的应用使得Decoder端的输入能够同时与多个encoder端输出的信息产生联系,

c_{i}=\sum_{j=1}^{T_{x}} \alpha_{i j} h_{j},
而不仅仅和单一隐状态有关,达到了更好的翻译效果。但是,由于attention依赖于RNN产生隐状态,因此此类的attention方法往往具有较高的时间消耗。

 

Query-aware注意力机制其实非常类似于数据库的查询。encoder端时间上连续的隐状态提供key,Decoder端提供query,

a_{ij} = \mathrm{Attention}(query_i, key_j).
<query, key> 的抽象是给了过去依赖RNN传递隐层信息的attention方法提供了并行化的处理方式。

 

2.1.1 软注意力机制

 

基于RNN的注意力模型首先出现于文本翻译,文章率先提出了软注意力模型(Soft Attention Model, RAM),它利用attention方法作为中间节点整合encoder信息到decoder输入端,

 

e_{i j}=a\left(s_{i-1}, h_{j}\right),\\ \alpha_{i j}=\frac{\exp \left(e_{i j}\right)}{\sum_{k=1}^{T_{x}} \exp \left(e_{i k}\right)}.
其中,encoder端到decoder端都使用了RNN结构。

2.1.2 全局注意力和局部注意力

 

文献将上文的RAM方式归纳为全局注意力(Global Attention Model, GAM)方式,并提出三类打分函数,


在此基础上,模型还预测了对齐位置p_{t}

p_{t}=S \cdot \operatorname{sigmoid}\left(\boldsymbol{v}_{p}^{\top} \tanh \left(\boldsymbol{W}_{\boldsymbol{p}} \boldsymbol{h}_{t}\right)\right).
这就是作者提出局部注意力机制(Local Attention Model, LAM),

\boldsymbol{a}_{t}(s)=\operatorname{align}\left(\boldsymbol{h}_{t}, \overline{\boldsymbol{h}}_{s}\right) \exp \left(-\frac{\left(s-p_{t}\right)^{2}}{2 \sigma^{2}}\right).
从而通过这样的方法,作者将软注意力与硬注意力机制结合,而且减少encoder端的重复计算。

2.1.3 基于Queryattention

 

针对句子理解问题,文献提出了Query-aware注意力机制,每个Query实际上都是只我们希望从句子中探知得到的某种属性。从而,网络分别计算内容端输出和查询端输出,又把这两者的输出整合成两个矩阵,Query2Context和Contex2Query,之后的计算在此基础上进行。

 

文献正是利用了这一点提出了Scaled Dot-Product Attention (SDTA)方式,

\text { Attention }(Q, K, V)=\operatorname{softmax}\left(\frac{Q K^{T}}{\sqrt{d_{k}}}\right) V.
通过这种方式进行attention计算,而不在依赖RNN网络,提高了计算销量。同时作者还提出了自注意力方案,这是由于在作者的结构中Qurey矩阵,Key矩阵,和Value矩阵可以源自同样的信息域(而不同于上文具有文本域和查询域)。在SDT注意力机制的基础上,作者进一步提出了多头注意力(Multi-Head Attention, MHA),这种方式允许了attention从信息结构不同的源信息域中提取信息。

 

2.2 视觉任务

视觉任务中attention也有大量应用,第一类方法和上文的局部注意力机制有关,通过RNN网络迭代生成关注位置,这类方法主要面向是图像解释任务;第二类方法则不需要利用RNN提供额外信息。

2.2.1 利用RNN的视觉注意力方法

 

文章是第一篇在图像领域使用基于RNN的attention方法的工作。参考了人的眼动扫描图片进行观察的方法,文献通过RNN结构传递下次观察位置。

 

工作提出RA-CNN网络,利用类似的工作每次生成attention位置并放大,达到了很好的图像识别效果。

 

一个图像解释的工作 考虑了类似的注意力方式,然而,不是生成一个位置,而是生成与位置有关的图像蒙版。如上图,该工作同时可视化了软注意力机制和硬注意力机制的效果。文章提出SCA-CNN针对图片解释问题,不仅考虑空间注意力也考虑通道注意力。

 

一个图像理解的研究也用到了相似query-aware的结构。此外,这个工作还应用了Bottom-Up 和 Top-down attention。其中Bottom-Up attention利用Fast R CNN从图像本身提取特征,而Top-down attention则是利用Question端LSTM产生的隐状态得到soft attention。

2.2.2 其他视觉注意力方法

 

文章提出带注意力的残差学习(Residual Attention Learning, ARL),如图每个带注意力残差模块分为两支,左支为软遮罩支,右支为特征提取支。作者提出了三种方案对左支进行约束,以此分别对应混合注意力,通道注意力,位置注意力:

 

 

f_{1}\left(x_{i, c}\right)=\frac{1}{1+\exp \left(-x_{i, c}\right)}\\ f_{2}\left(x_{i, c}\right)=\frac{x_{i, c}}{\left\|x_{i}\right\|}\\ f_{3}\left(x_{i, c}\right)=\frac{1}{1+\exp \left(-\left(x_{i, c}-\operatorname{mean}_{c}\right) / \operatorname{std}_{c}\right)}
实验证明了混合注意力具有最优的结果。

 

文章提出 SENets 从通道之间的关系来提高网络性能,记每个通道c根据其卷积核参数v_c具有输出u_c,作者首先通过Squeeze 函数进行全局嵌入,

z_{c}=\mathbf{F}_{s q}\left(\mathbf{u}_{c}\right)=\frac{1}{H \times W} \sum_{i=1}^{H} \sum_{j=1}^{W} u_{c}(i, j).
而后使用Excitation 函数利用z_c

\mathbf{s}=\mathbf{F}_{e x}(\mathbf{z}, \mathbf{W})=\sigma(g(\mathbf{z}, \mathbf{W}))=\sigma\left(\mathbf{W}_{2} \delta\left(\mathbf{W}_{1} \mathbf{z}\right)\right).
这个过程可以被可视为上图的过程。

 

文章通过整合最值池化和平均池化得到通道注意力和空间注意力方法,并在图像识别任务上具有好的表现。与之不同,文章提出了并行进行通道注意力和空间注意力的方法。

2.3 强化学习任务

2.3.1 有模型学习

 

工作在有模型强化学习上实验了强化学习机制的效果,该工作提出的fRL+decay是有模型强化学习方法,注意力被设计为特征的权重,根据

\phi_{d}=\frac{1}{z}\left[\sum_{f \in d} p\left(f=f^{*} | \mathcal{D}_{1: t-1}\right)\right]^{\alpha}.
而值根据,

V(S)=\sum_{d=1}^{3} w\left(f_{d}\right) \phi_{d},
这里的符号表示和一般强化学习中的方式略有不同,S带值一个选项,V(S)则表示该选项价值,D为特征维数。该工作的结果显示注意力机制可以帮助我们决策时提炼关键特征,从而指导高维环境的强化学习的任务并在某种程度上避免维数灾难。

 

受贝叶斯认知模型的启发,工作在fRL+attention的模型基础上加入了对任务结构的假设,而这个假设通过有偏向的注意力作用于分离的特征。

2.3.2 无模型单智能体强化学习

 

单智能体强化学习部分除了深入结合认知科学研究的工作,文章利用关系核,也就是由多头自注意力网络(MHA),来学习图像内实体的内部关系。该工作在高维复杂游戏如星际争霸挖矿游戏,推箱子任务上取得了很好的成绩。

2.3.3 多智能体强化学习

多智能体强化学习任务表现出了比单智能认为更为严重的维数灾难问题,因此,他们中的很多也使用了注意力机制,目的是从智能体的角度约简维数。此处列举两个工作的主要区别是:ATOC采取了基于RNN的注意力模型(AM),目的是为了从公共信道高效取得信息;MAAC利用了多头注意力(MHA)而提高了效果。

之后的工作也主要利用MHA形成智能体之间的复杂关系通道。这里的两篇工作都具有两层attention结构。其中,DGN利用MHA搭建了图卷积网络;而GA-AC/Comm 先后利用了硬注意力和软注意力方法,从而达到更好的约简。

 

 

参考文献

1 Cognitive Neuroscience of Attention, AIMS Neuroscience, 2015

2 Dynamic Interaction between Reinforcement Learning and Attention in Multidimensional Environments, Neuron, 2017

3 Neural machine translation by jointly learning to align and translate, ICLR,2015

4 Effective Approaches to Attention-based Neural Machine Translation, arXiv, 2015

5 Bidirectional attention flow for machine comprehension, ICLR, 2017

6 Attention Is All You Need, NIPS, 2017

7 recurrent models of visual attention, NIPS, 2014

8 Look Closer to See Better: Recurrent Attention Convolutional Neural Network for Fine-Grained Image Recognition, CVPR, 2017

9 Show, Attend and Tell: Neural Image Caption Generation with Visual Attention,  ICML, 2015

10 SCA-CNN: Spatial and channel-wise attention in convolutional networks for image captioning, CVPR, 2017

11 Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering, CVPR, 2018

12 Residual Attention Network for Image Classification, CVPR,2017

13 Squeeze-and-Excitation Networks, CVPR,2018

14 CBAM: Convolutional Block Attention Module, CVPR, 2018

15 Dual Attention Network for Scene Segmentation, CVPR, 2019

16 Reinforcement Learning in Multidimensional Environments Relies on Attention Mechanisms, Journal of Neuroscience, 2015

17 Holistic Reinforcement Learning: The Role of Structure and Attention, Trends in cognitive sciences,  2019

18 Relational deep reinforcement learning, arXiv, 2018

19 Learning Attentional Communication for Multi-Agent Cooperation, NIPS, 2018

20 Actor-Attention-Critic for Multi-Agent Reinforcement Learning, arXiv, 2018

21 Graph Convolutional Reinforcement Learning for Multi-Agent Cooperation, arXiv, 2018

22 Multi-Agent Game Abstraction via Graph Attention Neural Network, AAAI, 2020

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章