Attention Model 及其發展現狀概述

Attention Model 及其發展現狀概述

之前一段時間在學習注意力(Attention)模型相關的知識,現將學習筆記以及論文資料做些整理,供大家一起學習。

1. 什麼是注意力模型

視覺注意力是人類視覺信息處理過程中一項重要的調節機制,在視覺注意力的引導下,人類能夠從衆多的視覺信息中快速地選擇那些最重要、最有用、與當前行爲最相關的感興趣的視覺信息。當人類觀賞一幅畫時,雖然我們可以看到整幅畫的全貌,但是在我們深入仔細地觀察時,其實眼睛僅聚焦在很小的一塊區域,這個時候人的大腦主要關注在這一小塊圖案上,因此人腦對整幅圖的關注並不是均衡的,具有一定的權重區分。
而注意力模型(Attention model)就是對人腦的注意力模型進行模擬,旨在從衆多信息中選擇出對當前任務更關鍵的信息。考慮到人的目光會沿着感興趣的地方移動,甚至仔細盯着部分細節看,然後再得到結論,因此注意力模型在處理輸入信息時,是分塊或分區域進行,對不同的塊或區域採用不同的權值,權重越大越聚焦於其對應的內容信息,從而使得關鍵信息對模型的處理結果影響較大。

a. 優點

與傳統機器學習方法相比,注意力模型具有顯著的優越性,主要體現在如下幾個方面:
1) 與人類利用有限的注意力從大量信息中快速篩選出高價值信息類似,注意力模型極大地提高了視覺信息處理的效率與準確性,減小處理高維輸入數據的計算負擔,通過結構化的選取輸入的子集,降低數據維度;
2) 注意力模型讓任務處理系統更專注於找到輸入數據中顯著的與當前輸出相關的有用信息,從而提高輸出的質量。

注意力模型的最終目的是幫助類似編解碼器這樣的框架,更好的學到多種內容模態之間的相互關係,從而更好的表示這些信息,克服其無法解釋從而很難設計的缺陷。從上述的研究問題可以發現,注意力機制非常適合於推理多種不同模態數據之間的相互映射關係,這種關係很難解釋,很隱蔽也很複雜,這正是注意力的優勢—不需要監督信號,對於上述這種認知先驗極少的問題,顯得極爲有效。

b. 缺點

注意力模型的缺點主要體現在如下幾個方面:
1) 注意力模型更適合處理序列學習問題,對於靜態的、非序列問題不適用或者處理效果不好;
2) 相比於傳統模型,注意力模型引入了額外的成本,對於m個輸入,n個輸出的結構中,注意力模型參數也達到了m*n的數量級。

2. 主流算法

根據注意力模型的關注區域選擇的不同,可以將注意力模型分爲兩類:Soft Attention ModelHard Attention Model
(示例如下圖,圖來自文獻“Show, Attend and Tell: Neural Image Caption Generation with Visual Attention”[2])
圖例 Hard Attention與Soft Attention示例圖(以Image Caption任務爲例)
圖例 Hard Attention與Soft Attention示例圖(以Image Caption任務爲例)

a. Soft Attention Model:

Soft Attention Model。注意力關注區域是所有區域的一個加權和。即在求注意力分配時,對於輸入的每個區域都給出個概率,然後進行加權。代表性工作如下:

1) 在[1]中,加拿大蒙特利爾大學, IEEE T-NNLS副主編,NIPS 2019會議主席,Yoshua Bengio提出了基於聯合學習的提出了單層注意力模型(Neural Machine Translation by Jointly Learning to Align and Translate),該模型解決了機器翻譯中不同長度的源語言對齊問題。使用注意力模型的基本思想是目標語言端的詞往往只與源語言端部分詞相關。而這個相關度通常用概率的形式表示。這個過程基本爲:首先計算當前上下文的環境與每個源語言詞語的相關度(一個得分),然後使用softmax公式,將這個相關度轉化爲概率的形式,最後用得到的概率乘以對應源語言端詞的隱含表示作爲該詞對預測目標的貢獻,將所有源語言端的詞貢獻加起來作爲預測下一個詞的部分輸入。
2) 在[2]中,加拿大蒙特利爾大學, IEEE T-NNLS副主編,NIPS 2019會議主席,Yoshua Bengio提出了基於視覺注意力的圖像標註生成模型(Show, Attend and Tell: Neural Image Caption Generation with Visual Attention),該模型將注意力模型應用到了圖像標註生成問題中,在傳統的Encoder-Decoder框架中加入了注意力模型,展示瞭如何利用注意力模型爲圖像標註生成過程提供更多的可解釋性。並且該論文首次提出了Soft Attention Model與Hard Attention Model的概念。
3) 在[3]中,雅虎公司,雅虎公司聯合創始人,Simon Osindero提出了一個基於注意力建模的遞歸循環網絡(Recursive Recurrent Nets with Attention Modeling for OCR in the Wild),該模型聯合遞歸神經網絡和注意力機制模型,用於自然場景圖像中無詞彙光學字符識別。所提出的方法的主要優點是:(1)使用遞歸卷積神經網絡,其允許參數有效和有效的圖像特徵提取;(2)該模型使用了Soft Attention Model,允許模型以協調的方式有選擇地提取圖像特徵,並可以在標準反向傳播框架內進行端到端的訓練。
4) 在[4]中,上海交通大學,助理教授,張偉楠提出了一種帶位置注意力的增強遞歸神經網絡並應用於問答系統(Enhancing Recurrent Neural Networks with Positional Attention for Question Answering),該模型輸入爲“問題”句子中所有詞語的詞向量,輸出“回答”句子中所有詞語的詞向量。而該論文使用注意力模型的假設爲:如果“問題”句子中某個單詞出現在“回答”句子中,則在“回答”句子中該單詞周圍的詞語影響度更大,且該影響度隨距離變化呈高斯分佈。通過擬合高斯分佈得到所有輸入詞的影響概率,然後將影響概率作爲權重,和輸入向量加權求和得到基於位置的影響向量,最後將得到的影響向量作爲指定向量,計算所有輸入單詞的隱含向量與該指定向量的相關度,通過注意力模型計算得到的向量作爲輸入幫助完成預測。
5) 在[5]中,谷歌DeepMind,谷歌DeepMind聯合創始人,Mustafa Suleyman提出了基於注意力機制的機器閱讀理解模型(Teaching Machines to Read and Comprehend)。針對閱讀理解缺乏大規模訓練數據集,作者構建了相應的數據集。同時提出了三種神經網絡模型來解決機器閱讀理解問題,其中包括The Attentive Reader與Impatient Reader模型。The Attentive Reader是在LSTM的基礎上,加入了注意力機制,Impatient Reader是在Attentive Reader的基礎上做了更進一步的優化。

b. Hard Attention Model:

Hard Attention Model。注意力每次移動到一個固定大小的區域。 相對來說Soft Attention Model比較好理解,在 Hard Attention Model裏面,每個時刻模型的序列只有一個取 1,其餘全部爲 0(即One Hot向量),也就是說每次只關注一個位置,而Soft Attention Model每次會照顧到全部的位置,只是不同位置的權重不同罷了。Hard Attention Model代表性工作如下:

1) 在[6]中,谷歌DeepMind,谷歌DeepMind研究負責人,Koray Kavukcuoglu提出了提出了一種基於遞歸神經網絡的注意力模型(Recurrent Models of Visual Attention),這篇文章是Hard Attention Model開創性論文之一,提出的注意力模型能夠通過自適應地選擇一系列區域或位置,並且處理所選區域來從圖像或視頻中提取信息,解決了卷積神經網絡對大型的圖片的處理計算量巨大的問題。論文將注意力問題看做是目標引導的序列決策過程,能夠和視覺環境交互。在每一個時間點,感受器只關注某一塊區域,在局部區域進行信息提取,而不是全局範圍內。
2) 在[7]中,美國斯坦福大學,ACM/AAAI/ACL Fellow,ACL前主席,Christopher Manning提出了基於注意力的神經機器翻譯方法(Effective Approaches to Attention-Based Neural Machine Translation),該論文提出了兩種模型:全局和局部注意力模型,全局注意力模型很類似於Soft Attention Model,每次考慮編碼器的所有隱含狀態;而局部注意力模型本質上是Soft和Hard Attention Model的一個混合,其計算複雜度較低,易於訓練。
3) 在[8]中,谷歌DeepMind,Koray Kavukcuoglu提出了一種基於注意力的模型的用於圖像中識別多個物體(Multiple Object Recognition with Visual Attention),該模型是利用強化學習來訓練 Deep RNN,以找到輸入圖像中最相關的區域。儘管在訓練的過程中,僅僅給出了類別標籤,但是仍然可以學習定位並且識別出多個物體。
4) 在[9]中,加拿大多倫多大學,加拿大多倫多大學計算機科學學院教授,Richard S. Zemel提出了一個統一視覺語義嵌入與多模態神經語言模型(Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models),該模型基於Encoder-Decoder框架,來學習一個帶圖像和文本的多模態聯合嵌入空間,以及用於解碼來自我們空間的分佈式表示的新型語言模型。該模型能有效地將聯合圖像文本嵌入模型與多模態神經語言模型相結合。

3. 最新流行算法/趨勢

1) 2017年發表在ACM SIGIR會議上的題爲“Attentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-Level Attention”[10]的文章,介紹了基於領域知識的注意力機制如何用於推薦系統的。其中的注意力模型框架類似於層級注意力模型,唯一的不同就是它的輸入使用了其他領域信息。文章中的注意力模型由兩個注意力模塊組成:用於學習選擇多媒體信息內容組件的Component-level 注意力模塊,以及學習對內容表現進行評分的Item-level注意力模塊。
2) 2017年發表在KDD會議上的題爲“GRAM: Graph-Based Attention Model for Healthcare Representation Learning”[11]的文章,利用知識圖譜和注意力模型,提出了一種新的醫療診斷模型。改模型解決了深度模型在醫療問題中數據不足以及深度模型學到的表述與醫學知識不匹配問題。
3) 2017年發表在CVPR會議上的題爲“Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning”[12]的文章,提出了一種新的帶有視覺標記的注意力模型,在每個時間步驟中,模型決定是否要關注圖像(如果是,關注哪個區域)或視覺標記。
4) 2018年發表在CVPR會議上的題爲“Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering”[13]的文章,提出了一種結合了Bottom-up和Up-down的注意力機制,該模型可以在對象以及其他顯著性區域層面上來計算注意力的關注度。具體來說,自下而上的機制(基於更快的R-CNN)用來提出圖像區域與對應的特徵向量,而自上而下機制確定特徵權重。
5) 2018年發表在CVPR會議上的題爲“Generative Image Inpainting with Contextual Attention”[14]的文章,提出了一種新的基於深度生成模型的圖像修復方法,該方法不僅可以合成新穎的圖像結構,還可以用注意力模型在網絡訓練期間利用周圍的圖像特徵作爲參考,從而做出更好的預測。該模型是一個前饋完全卷積神經網絡,它可以在測試時間內在任意位置以及可變尺寸下處理多個孔的圖像。

4. 國內外主要研究小組

1) 騰訊AI Lab首席研究員馬林研究組,代表工作是2018年發表在CVPR spotlight上的題爲“Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning”[15]的文章,該文章主要解決了兩個問題,即:(1)如何利用好過去和未來的信息以便更精確地定位出事件;(2)如何給解碼器輸入有效的視覺信息,以便更準確地生成針對該事件的自然語言描述。
2) 華爲諾亞方舟實驗室研究員李航研究組,代表工作是2015年發表在ACL上的題爲“Neural Responding Machine for Short-Text Conversation”[16]的文章,該文章提出的Neural Responding Machine是很典型的應用創新,將帶注意力模型的Encoder-Decoder框架應用到對話機器人任務中,輸入Encoder-Decoder的是一句對話,而Encoder-Decoder輸出的則是對話機器人的應答。
3) IEEE T-NNLS副主編,NIPS 2019會議主席,加拿大蒙特利爾大學教授Yoshua Bengio研究組,代表工作是2014年發表在IEEE T-MM上的題爲“Describing Multimedia Content Using Attention-Based Encoder-Decoder Networks”[17]的文章,該文章關注的是輸入具有豐富結構並且輸入和輸出結構有某種相關性的情況。
4) ACM/AAAI/ACL Fellow,ACL前主席,美國斯坦福大學Christopher Manning教授研究組,代表工作是2015年發表在EMNLP會議上題爲“Effective Approaches to Attention-Based Neural Machine Translation”[7]的文章,該論文提出了全局注意力模型和局部注意力模型。
5) 中國工程院外籍院士、中國科學院外籍院士、美國工程院院士,美國伊利諾伊大學厄巴納-香檳分校Beckman研究院圖象實驗室主任Thomas S. Huang教授研究組,代表工作是2018年發表在CVPR會議上題爲“Generative Image Inpainting with Contextual Attention”[14]的文章,提出了一種新的基於深度生成模型與注意力模型的圖像修復方法。

聲明:

本文爲作者原創,未經許可,不允許轉載或用於其他用途!!!

5. 參考文獻

[1] D. Bahdanau, K. Cho, and Y. Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate,” Computer Science, 2014.
[2] K. Xu, J. Ba, R. Kiros, K. Cho, A. Courville, R. Salakhudinov, R.Zemel, and Y. Bengio, “Show, Attend and Tell: Neural Image Caption Generation with Visual Attention,” in Proc. Int’l Conf. Machine Learning, pp. 2048-2057, 2015.
[3] C. Le and S. Osindero, “Recursive Recurrent Nets with Attention Modeling for OCR in the Wild,” in Proc. Int’l Conf. Computer Vision and Pattern Recognition, pp. 2231-2239, 2016.
[4] Q. Chen, Q. Hu, J. Huang, L. He, and W. An, “Enhancing Recurrent Neural Networks with Positional Attention for Question Answering,” in Proc. Int’l Conf. on Research and Development in Information Retrieval, pp. 993-996, 2017.
[5] K. Hermann, T. Kocisky, E. Grefenstette, L. Espeholt, W. Key, M. Suleyman, and P. Bilunsom, “Teaching Machines to Read and Comprehend,” in Proc. Advances in Neural Information Processing Systems, pp. 1693-1701, 2015.
[6] V. Mnih, N. Heess, and A. Graves, “Recurrent Models of Visual Attention,” in Proc. Advances in Neural Information Processing Systems, pp. 2204-2212, 2014.
[7] M. Luong, H. Pham, and C. Manning, “Effective Approaches to Attention-Based Neural Machine Translation,” in Proc. Conf. Empirical Methods in Natural Language Processing, pp. 1412-1421, 2015.
[8] J. Ba, V. Mnih, and K. Kavukcuoglu, “Multiple Object Recognition with Visual Attention,” in Proc. Int’l Conf. Learning Representations, pp. 1-10, 2015.
[9] R. Kiros, R. Salakhutdinov, and R. Zemel, “Unifying Visual-Semantic Embeddings with Multimodal Neural Language Models,” arXiv:1411.2539, 2014.
[10] J. Chen, H. Zhang, X. He, L. Nie, W. Liu, and T. Chua, “Attentive Collaborative Filtering: Multimedia Recommendation with Item- and Component-level Attention,” in Proc. Int’l ACM SIGIR Conf. Research and Development in Information Retrieval, pp. 335-344, 2017.
[11] E. Chio, M. Bahadori, L. Song, W. Stewart, and J. Sun, “GRAM: Graph-Based Attention Model for Healthcare Representation Learning,” in Proc. Int’l Conf. Knowledge Discovery and Data Mining, pp. 787-795, 2017.
[12] J. Lu, C. Xiong, D. P arikh, and R.Socher, “Knowing When to Look: Adaptive Attention via a Visual Sentinel for Image Captioning,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, pp. 375-383, 2017.
[13] P. Anderson, X. He, C. Buehler, D. Teney, M. Johnson, S. Gould, and L. Zhang, “Bottom-Up and Top-Down Attention for Image Captioningand Visual Question Answering,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2018.
[14] J. Yu, Z. Lin, J. Yang, X. Shen X. Lu, and T. Huang, “Generative Image Inpainting with Contextual Attention,” in Proc. IEEE Conf. Computer Vision and Pattern Recognition, 2018.
[15] J. Wang, W. Jiang, L. Ma, W. Liu, and Y. Xu, “Bidirectional Attentive Fusion with Context Gating for Dense Video Captioning,” arXiv:1804.00100, 2018.
[16] L. Shang, Z. Lu, and H. Li, “Neural Responding Machine for Short-Text Conversation,” in Proc. Association for Computational Linguistics and Int’l Joint Conf. Natural Language Processing, pp. 1577-1586, 2015.
[17] K. Cho, A. Courville, and Y. Bengio, “Describing Multimedia Content Using Attention-Based Encoder-Decoder Networks,” IEEE Trans. Multimedia, vol. 17, no. 11, pp. 1875-1886, 2015.

發表評論
所有評論
還沒有人評論,想成為第一個評論的人麼? 請在上方評論欄輸入並且點擊發布.
相關文章